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内 容 提 要 





机 堪 学 习 是 近年 来 渐 趋 热门 的 一 个 领域 ， 同 时 Python 语言 经 过 一 段 时 间 的 发 展 也 已 逐 
渐 成 为 主流 的 编程 语言 之 一 。 本 书 结合 了 机 器 学 习 和 Python 语言 两 个 热门 的 领域 ,通过 多 
于 理解 的 项 目 详细 讲述 了 如 何 构建 真实 的 机 峰 学 习 应 用 程序 。 

全 书 共有 10 章 。 第 1 章 讲解 了 Python 机 器 学 习 的 生态 系统 ， 剩 余 9 章 介 绍 了 众多 与 
机 禹 学 习 相 天 的 算法 ， 包 括 聚 类 算法 、 推 荐 引 敬 每， 主要 包括 机 右 学 习 在 公 上 蜗 、 机 票 、IPO 
市 场 、 新 闻 源 、 内 容 推 广 、 股 票 市 场 、 图 像 、 聊 天 机 器 人 和 推荐 引擎 等 方面 的 应 用 。 

本 书 适 合 Python 程序 员 、 数 据 分 析 人 员 、 对 算法 感 兴趣 的 读者 、 机 器 学 习 领 域 的 从 业 
人 员 及 科研 人 员 阅 读 。 
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作者 人 简介 


Alexander T. Combs 是 一 位 经 验 丰 是 的 数据 科学 家 、 宽 上 略 师 和 开发 人 员 。 他 有 人 金融 数据 
抽取 、 目 然 语 言 处 理 和 生成 ， 以 及 定量 和 统计 建 模 的 背景 。 他 目前 古 纽约 沉浸 式 数 据 科学 
项 目的 一 名 全 职 资 深 讲师 。 
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审阅 者 简介 


KushalKhandelwal 是 一 位 数据 科学 家 和 全 栈 开 及 人 员 。 他 的 兴趣 包括 构建 可 扩展 的 机 
髓 学 习 和 图 像 处理 的 软件 应 用 。 他 擅长 Python 编码 ， 并 对 各 种 开源 项 目 做 出 了 积极 的 页 献 。 
他 目前 担任 Truce.in 的 技术 主管 ， 这 是 一 家 以 农民 为 中 心 的 创业 公司 ，Kushal 致力 于 创建 
可 扩展 的 Web 应 用 程序 来 帮助 农民 。 
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译 者 简介 
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黄牛 博士 , 现任 IBM 研究 院 资 深 科 学 家 , 毕业 于 上 海 交 通 大 学 计算 机 科学 与 工程 专业 ， 
师 从 俞 勇 教授 。 微 软 学 者 、IBM ExtremeBlue 天 才 计 划 成 员 。 长 期 专注 于 大 数据 相关 的 搜 
索 、 推 荐 、 广 告 以 及 用 户 精 准 化 领域 。 壮 在 微软 亚洲 研究 院 、eBay 中 国 、 沃 尔 玛 1 号 店 ( 现 
时 东 1 号 店 ) 和 大 尊 发 飞 牛 网 担任 要 职 ， 市 队 完 成 了 厂 干 公司 级 的 战略 项 目 。 同 时 友 表 了 
20 多 篇 国际 论文 ， 并 拥有 10 多 项 国际 专利 ,《 计 算 机 工程 》 特 邀 审 稳 专 家 ,， 《Elasticsearch 
实战 》 中 文 版 的 译 者 ，2016 年 出 版 的 《大 数据 架构 商业 之 路 》 一 书 销 量 和 口碑 双 局 ， 续 作 
《大 数据 染 构 和 算法 实现 之 路 》 将 于 2017 年 中 出 版 。2015 年 ， 因 对 业界 做 出 早 越 页 献 ， 获 
得 美国 政府 癸 友 的 “美国 杰出 人 才 ” 称 号。 
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译 者 序 


谈 到 为 什么 要 翻译 这 本 书 ， 还 是 一 段 机 缘 巧 合 。 那 是 2015 年 的 下 半年 ， 当 时 我 正在 氛 
写 自 己 的 原创 书籍 《大 数据 架构 商业 之 路 : 从 业务 需求 到 技术 方案 》。 在 那 本 书 中 ， 我 希望 
结合 一 个 创业 的 故事 ， 展 示 各 个 阶段 可 能 过 到 的 大 数据 课题 、 业 务 震 求 ， 以 及 相对 应 的 技 
术 方 案 ， 其 至 古 实践 解析 。 其 中 ， 最 挑战 的 部 分 更 过 于 案例 的 分 析 到 技术 方案 ， 再 到 框 染 
编码 的 逐步 展开 。 因 为 之 前 对 于 这 种 写作 模式 没有 相关 的 经 验 ， 让 人 很 是 吉 恼 。 我 也 搜寻 
了 市 面 上 相关 的 中 天 文书 籍 ， 可 惜 并 未 友 现 特别 好 的 范例 作为 参考 。 

一 次 偶然 的 机 会 ， 我 在 Amazon.com 上 发 现 了 Alexander T. Combs 的 《Python Machine 
Learning Blueprints》。 当 时 此 书 疝 未 出 版 ,还 是 试 恋 本 。 在 阅读 样 章 之 后 我 故 现 这 种 写作 模 
式 就 是 我 想 要 的 ， 没 有 太 多 的 理论 和 说 教 ， 而 是 结合 我 们 日 章 生 活 都 会 经 历 的 方方面面 ， 
包括 房产 、 金 融 、 旅 诉 和 电子 商务 等 ， 提 供 了 可 以 直接 上 手 的 教学 内 容 ， 让 读者 可 以 壬 临 
其 境 ， 乐 在 其 中 ， 轻 松 了 解 机 融 学 习 的 实用 知识 。 这 正 是 我 想 要 学 习 的 风格 ! 于 是 我 采纳 
了 这 种 模式 ， 并 结合 目 己 的 项 目 经 验 ， 一 口气 完成 了 《大 数据 染 构 商业 之 路 : 从 业务 需求 
到 技术 方案 》 一 书 。 上 市 之 后 ， 读 者 对 这 种 理论 和 案例 相 结 合 的 方式 很 是 赞许 。 所 以 ， 我 
对 《Python Machine Learning Blueprints》 一 书 心 存 感激 ， 对 它 何 时 上 市 也 很 是 关注 。 

终于 ，2016 年 的 7 月 底 ， 该 书 的 瑞 文 版 正式 发 行 。 我 过 不 及 生地 阅读 完了 原版 ， 和 当 
初试 谈 的 感觉 一 样 ， 这 是 一 本 很 有 创意 的 书 ， 而 且 Python 和 机 器 学 习 都 是 最 近 几 年 的 技术 
热点 ， 如 果 能 将 这 么 棒 的 内 容 介绍 给 广大 国内 的 读者 ， 那 是 多 么 令 人 激动 的 事情 ! 于 是 ， 
我 抱 独 试 试看 的 心态 ， 联 系 了 人 民 邮 电 出 版 社 的 编辑 陈 囊 康 老 师 。 很 芋 运 ， 当 时 此 书 还 没 
有 译 者 ， 陈 老师 审阅 我 的 试 译 稳 之 后 也 表示 满意 ， 于 是 我 很 采 羡 地 成 为 了 此 书 的 译 痢 。 

不 过 在 翻译 的 过 程 中 ， 我 也 发 现 了 不 少 细 市 上 的 疑问 ， 于 是 我 主动 联系 了 原 书 的 作者 
Alexander， 他 总 是 非 党 仔细 地 解答 这 些 问题 ， 使 得 我 信心 大 增 ， 可 以 确保 译文 尽 可 能 地 贴 
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2 Python 机 器 学 习 实 践 指南 
近 原 文 。 而 编辑 陈 老师 也 对 此 举 表示 了 充分 的 肯定 。 在 此 ， 我 要 对 Alexander 和 陈 老师 的 
帮助 表示 吏 心 的 感谢 。 当 然 ， 我 也 要 感谢 父母 和 妻 儿 有 的 文 持 ， 为 了 此 书 ， 我 陪伴 你 们 的 时 
间 更 少 了 ， 而 你 们 丝 坚 没有 扰 言 ， 让 我 可 以 安心 地 完成 每 次 的 写作 。 

在 翻 诺 此 书 的 光 月 中 ，Python、 机 大 学 习 及 其 应 用 在 国内 外 都 获得 了 空前 的 关注， 相关 
的 社区 也 保持 了 非常 好 的 活跃 度 ， 相 信 这 个 技术 方 癌 在 将 来 还 有 很 大 的 空间 。 和 硕 望 本 书 能 帮 
助 到 每 一 位 热爱 Python 和 机 复学 习 的 朋友 , 为 中 国 的 人 工 智 能 事业 尽 一 份 绢 泣 乙 力 。 如 条 您 
对 本 书 中 的 拉 术 细节 感 兴 趣 ， 可 以 通过 如 下 渠道 联系 我 ， 很 期 竺 和 大 家 的 互动 和 交流 。 

QQ 30038279 

微 信 18616692855 

邮箱 s_huang790228@hotmail.com 

LinkedIn https://cn.linkedin.com/in/shuang7902238 


























扫 一 扫 束 能 做 信 联 系 作 者 : 
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机 器 学 习 正在 迅速 成 为 数据 驱动 型 世界 的 一 个 必 备 模块 。 许 多 不 同 的 领域 如 机 器 人 、 
医学 、 零 售 和 出 版 等 ， 都 需要 依赖 这 门 技术 。 在 这 本 书 中 ， 你 将 学 习 如 何 一 步 步 构建 真实 
的 机 器 学 习 应 用 程序 。 

通过 易于 理解 的 项 目 ， 你 将 学 习 如 何 处 理 各 种 类 型 的 数据 ， 如 何以 及 何 时 应 用 不 同 的 
机 器 学 习 技 术 ， 包 括 监督 学 习 和 无 监督 学 习 。 

本 书 中 的 每 个 项 目 都 同时 提供 了 教学 和 实践 。 例 如 ， 你 将 学 习 如 何 使 用 聚 类 技术 来 发 
现 低 价 的 机 票 ， 以 及 如 何 使 用 线性 回归 找到 一 间 便宜 的 公寓 。 本 书 以 通俗 易 慌 、 简 洁 明了 
的 方式 ， 教 你 如 何 使 用 机 器 学 习 来 收集 、 分 析 并 操作 大 量 的 数据 。 


本 书 涵 孟 的 内 容 


第 1 半 , Python 机 器 学 习 的 生态 系统 ,深入 Python, 它 有 一 个 深度 活跃 的 开发 者 社区 ， 
而 且 许 多 开发 者 来 自 科 学 社区 。 这 为 Python 提供 了 丰富 的 科学 计算 库 。 在 本 章 中 ， 我们 将 
讨论 这 些 关 键 库 的 特性 以 及 如 何 准备 你 的 环境 ， 以 最 好 地 利用 它们 。 

第 2 章 ， 构 建 应 用 程序 ， 发 现 低 价 的 公 敲 ， 指 导 我 们 构建 第 一 个 机 器 学 习 应 用 程序 ， 
我 们 从 一 个 最 小 但 实际 的 例子 开始 : 建设 应 用 程序 来 识别 低 价 的 公寓 。 到 本 章 结束 ， 我 们 
将 创建 一 个 应 用 程序 ， 使 得 寻找 合适 的 公 宛 变 得 更 容易 点 。 

第 3 草 ， 构 建 应 用 程序 ， 有 发 现 低 价 的 机 票 ， 汗 示 了 如 何 构建 应 用 程序 来 不 断 地 监测 票 
价 。 一旦 出 现 异 第 价格 ， 应 用 程序 将 提醒 我 们 ， 可 以 快速 采取 行动 。 

第 4 半 ， 使 用 人 逻辑 回归 预测 IPO 市 场 ， 展 示 了 我 们 如 何 使 用 机 禹 学 习 决 定 哪 些 IPO 值 
得 仔细 研究 ， 而 哪些 可 以 直接 跳 过 。 
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第 5 章 ， 创 建 目 定义 的 新 闻 源 ， 介 绍 如 何 构建 一 个 系统 ， 它 会 了 解 你 对 于 新 闻 的 品味 ， 
而 且 每 天 都 可 以 为 你 提供 个 性 化 的 新 闻 资 讯 。 

第 6 革 ， 预 测 你 的 内 容 是 否 会 三 为 流传 ,检查 一 些 被 大 家 三 沁 分 至 的 内 容 ， 并 试图 找 
到 这 种 内 容 相 对 于 其 他 人 们 不 愿 分 圣 的 内 容 有 哪些 特 后 。 

第 7 草 ， 使 用 机 去 学 习 预 测 股票 市 场 ， 讨 论 如 何 构建 和 测试 交易 策略 。 当 你 试图 设计 
属于 目 己 的 系统 时 ， 有 无 数 的 陷阱 要 避免 ， 这 是 一 个 几乎 不 可 能 完成 的 任务 。 但 是 ， 这 个 
过 程 有 很 多 的 乐趣 ， 而 且 有 的 时 候 ， 它 甚至 可 以 帮 你 鳃 利 。 

第 8 革 ， 建 立 图 像 相 似 度 的 引擎 ， 和 帮助 你 构建 融 级 的 、 基 于 图 像 的 深度 学 习 应 用 。 我 
们 还 将 涵 兰 深度 学 习 的 算法 来 了 解 为 什么 它们 是 如 此 的 重要 ， 以 及 为 什么 它们 成 为 了 最近 
研究 的 热点。 

第 9 昔 ， 打 造 聊天 机 需 人 ， 满 示 如 何 从 头 构建 一 个 聊天 机 需 人 。 该 完 之 后 ， 你 将 了 解 
更 多 关于 该 领域 的 历史 及 其 未 来 前 景 。 

第 10 草 ， 构 建 推荐 引擎 ， 探 讨 不 同 闫 型 的 推荐 系统 。 我 们 将 看 到 它们 在 商业 中 是 如 何 
实现 和 运作 的 。 我 们 还 将 实现 目 己 的 推荐 引擎 来 得 找 GitHub 资料 库 。 


阅读 本 书 需要 准备 什么 












































你 需要 的 是 Python 3.x 和 建立 真实 机 需 学 习 项 目的 淘 望 。 你 可 以 参考 随 本 书 的 详细 代 
人 码 列表 。 


本 书 的 读者 


本 书 的 目标 读者 包括 了 解数 据 科 学 的 Python 程序 员 、 数 据 科 学 家 、 架 构 师 ， 以 及 想 要 
构建 完整 的 、 基 于 Python 的 机 器 学 习 系 统 的 人 员 。 


约定 











在 这 本 书 中 ， 你 会 友 现 许多 文本 样式 ， 以 区 分 不 同 种 类 的 信息 。 这 里 是 攻 些 样式 的 例 
子 和 它们 的 含义 。 

文本 中 的 代码 、 数 据 库 表 名 称 、 文 件 夹 名 称 、 文 件 名 、 文 件 扩展 名 、 路 径 名 、 虚 构 的 URL.、 
用 户 输入 和 Twitter 句柄 如 下 所 示 :“ 这 点 可 以 通过 在 我 们 的 数据 框 上 调用 .corr0 来 实现 。” 
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代码 块 的 格式 设置 如 下 。 


<category> 

<pattern>I LIKE TURTLES</pattern> 

<template>I feel like this whole <set name="topic">turle</set> 
thing could be a problem. What do you like about them?</template> 
</category> 


任何 命令 行 输入 或 输出 的 写法 如 下 。 


sp = pd.read csv(r'/Users/alexcombs/Downloads/spy.csv') 
sp.sort values('Date', inplace=True) 


新 术语 和 重要 词语 以 粗 体 显示 。 
读者 肥 僻 


我 们 非常 欢迎 读者 的 反馈 。 让 我 们 知道 你 对 这 本 书 有 什么 想法 你 喜欢 哪些 内 容 或 
不 喜欢 哪些 内 容 。 读 者 的 反馈 对 我 们 而 言 很 重要 ， 因 为 它 有 助 于 我 们 打造 各 种 主题 ， 而 且 





对 于 一 般 的 反馈 ， 通 过 电子 邮件 feedback@packtpub.com 发 送 ， 并 在 消息 的 主题 中 提 
及 书 的 标题 。 
如 果 你 擅长 茶 个 专业 的 主题 ， 并 且 你 有 兴趣 所 写 或 合 音 一 本 书 ， 请 参 疯 我 们 的 作者 指 


南 www.packtpub.comy/authors。 
客户 支持 


现在 你 是 一 名 自 坚 的 Packt 书籍 所 有 者 ， 我 们 将 做 一 些 事 情 来 帮助 你 从 这 次 购买 中 获 











下 载 示 例 代码 

在 http://www.packtpub.com， 你 可 以 通过 目 己 的 账户 来 下 载 此 书 的 示例 代码 文件 。 如 
果 你 在 其 他 地 方 购买 此 书 ， 你 可 以 访问 http:Wwww.packtpub.com/support 并 注册 ， 我 们 将 文 
件 直 接 发 送 给 你 。 
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你 可 以 通过 以 下 步骤 下 载 代码 文件 。 

1. 使 用 你 的 电子 邮件 地 址 和 密码 登录 或 注册 我 们 的 网 站 。 
.将 光标 指针 巧 停 在 顶部 的 SUPPORT 选项 卡 上 。 

， 单 击 Code Downloads & Errata。 

.在 搜索 框 Search 中 输入 书籍 的 名 称 。 

.选择 你 要 下 载 代码 文件 的 图 书 。 

. 在 下 拉 沫 单 中 ， 选 择 你 在 哪里 购买 的 此 书 。 

， 单 击 Code Download 。 

在 Packt Publishing 的 网 站 上 ， 你 也 可 以 单 击 该 书 主页 上 的 Code Files 按钮 来 下 载 代码 
文件 。 可 以 在 搜索 框 中 输入 图 书 的 名 称 来 访问 其 主页 。 请 注意 ， 你 需要 登录 到 你 的 Packt 
账户 。 

一 旦 文件 下 载 完 人 毕 ， 请 确保 使 用 以 下 软件 的 最 新 厂 本 来 解压 缩 或 提取 文件 夹 。 

eWindows 版 WinRAR /7-Zip。 





~ OO HW 下 WW hb 

















eMac 版 Zipeg / iZip / UnRarX。 

eLinux 版 7-Zip / PeaZip。 

该 书 的 代 信和 也 : 朱 和 佣 下 GitHub 上 
https://github.com/packtpublishing/pythonmachinelearningblueprints 。 我 们 还 有 丰富 的 来 日 其 
他 书籍 的 代码 包 和 视频 ， 位 于 https://github.com/PacktPublishing/。 去 看 一 下 吧 ! 


勘误 








虽然 我 们 已 经 采取 一 切 谍 慎 的 措施 ， 以 确保 内 容 的 准确 性 ， 但 错误 在 所 难免 。 如 果 你 
在 我 们 的 书 中 友 现 一 个 错误 一 一 也 许 在 正文 中 , 也 许 在 代码 中 一 一 请 同 我 们 报告 , 我 们 将 非 
第 感 浅 。 这 样 ， 你 可 以 让 其 他 读者 避免 挫折 ， 并 帮助 我 们 改进 本 书 的 后 续 版 本 。 如 琳 你 发 
现任 何 错误 ， 请 访问 这 个 链接 进行 报告 : http://www.packtpub.com/submit-errata， 选 择 你 的 
书 ， 单 击 Errata Submission Form 链接 ， 然 后 输入 错误 有 的 评 细 信息 。 一 旦 此 勘误 通过 验证 ， 
你 的 提交 将 被 接受 ， 勘 误 信 息 将 被 上 传 到 我 们 的 网 站 或 添加 到 任何 该 主题 Errata 部 分 现 有 
的 勘误 表 。 

要 查看 以 前 提交 的 勘误 , 请 访问 https://www.packtpub.com/books/content/support 并 在 搜 
过 字段 中 输入 书籍 的 名 称 。 所 需 信 息 将 出 现在 Errata 部 分 中 。 
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第 1 章 
Python 机 怖 学 习 的 生态 系统 


机 颖 学 习 正 在 迅速 改变 我 们 的 世界 。 作 为 人 工 智能 的 核心 ， 我 们 几乎 每 天 都 会 谈 到 
机 磊 学 习 如 何 改 变 日 钊 的 生活 。 一 些 人 认为 它 会 带领 我 们 进入 一 个 风格 奇异 的 高 科技 乌 
托 邦 ， 而 男 一 些 人 认为 我 们 正 迈 问 一 个 高 科技 天 启 时 代 ， 将 与 鳃 取 我 们 工作 机 会 的 机 器 
人 和 无 人 机 敢死队 进行 持久 的 战争 。 不 过 ， 虽 然 权 威 专家 们 可 能 会 喜欢 讨论 这 些 伟 张 的 
未 来 ， 但 更 为 平凡 的 现实 是 ， 机 器 学 习 正 在 快速 成 为 我 们 日 党 生活 的 固定 装备 。 随 看 我 
们 短小 但 循序 渐进 地 改进 目 喘 与 计算 机 以 及 周围 世界 之 间 的 互动 ， 机 器 学 习 正 在 悄悄 地 
改善 痢 我 们 的 生活 。 

如 果 你 在 Amazon.com 这 样 的 在 线 零售 商店 购物 ， 使 用 Spotify 或 Netflix 这 样 的 流 媒 
体 音 乐 或 电影 服务 ， 甚 至 只 是 执行 一 次 Google 搜索 ， 你 就 已 经 触 碰 到 了 机 器 学 习 的 应 用 。 
使 用 这 些 服务 的 用 户 会 产生 数据 ， 这 些 数 据 会 被 收集 、 汇 总 并 送 入 模型 ， 而 模型 最 终 会 为 
每 个 用 户 创 建 个 性 化 的 体验 来 完善 服务 。 

想 要 深入 到 机 器 学 习 应 用 的 开发 中 ， 现 在 束 是 一 个 理想 的 时 机 。 你 会 发 现 ，Python 是 
开发 这 些 应 用 的 理想 选择 。Python 拥有 一 个 深度 的 、 活 跃 的 开发 者 社区 ， 许 多 开发 者 也 来 
目 科 学 家 的 社区 。 这 为 Python 提供 了 一 组 丰 定 的 科学 计算 库 。 在 本 书 中 ， 我 们 将 讨论 并 使 
用 这 些 来 日 Python 科学 栈 的 库 。 

在 接 下 来 的 章节 中 ， 我 们 将 一 步 步 学 习 如 何 建 立 各 种 不 同 的 机 喜 学 习 应 用 。 但 是 ， 在 
真正 开始 之 前 ， 我 们 将 使 用 本 章 剩 下 的 扁 幅 讨论 这 些 关 键 库 的 特性 ， 以 及 如 何 准 备 能 充分 
利用 它们 的 环境 。 

我 们 将 在 本 章 中 介绍 以 下 主题 。 

ee 数据 科学 /机 器 学 习 的 工作 流程 。 
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。 工 作 流 中 每 个 阶段 的 库 。 
e。 设 置 你 的 环境 。 


1.1 数据 科学 /机 强 学 习 的 工作 流程 


打造 机 器 学 习 的 应 用 程序 , 与 标准 的 工程 范例 在 许多 方面 都 是 类 
似 的 ， 不 过 有 一 个 非常 重要 的 方法 有 所 不 同 : 需要 将 数据 作为 原材料 
来 处 理 。 数 据 项 目 成 功 与 个 ， 很 大 程度 上 依赖 于 你 所 获 数 据 的 质量 ， 
以 及 它 是 如 何 被 处 理 的 。 由 于 数据 的 使 用 属于 数据 科学 的 领域 ,理解 
数据 科学 的 工作 流程 对 于 我 们 也 有 所 帮助 : 整个 过 程 要 按照 图 1-1 中 
的 顺序 ， 完 成 六 个 步骤 : 获取 ， 检 查 和 探索 ， 清 理 和 准备 ， 建 模 ， 评 
佑 和 最 后 的 部 普 。 


在 这 个 过 程 中 ,还 经 常 需 要 统 回 到 之 前 的 步 又 , 例如 检 俘 和 准备 
数据 ， 或 者 是 评估 和 建 模 ， 但 图 1-1 所 示 的 内 容 可 以 描述 该 过 程 较 高 
层次 的 抽象。 

现在 让 我 们 详细 讨论 每 一 个 步骤 。 

1.1.1 获取 


机 釉 学 习 应 用 中 的 数据 ， 可 以 来 和 目 不同 的 数据 产 ， 它 可 能 是 通过 电子 邮件 及 送 的 CSV 
文件 ， 也 可 能 是 从 服务 器 中 拉 取 出 来 的 日 志 ， 或 者 它 可 能 需要 构建 目 己 的 Web 爬虫 。 数 据 
也 可 能 存在 人 不同 的 格式 。 在 大 多 数 情况 下 ， 它 是 基于 文本 的 数据 ， 但 稍 后 将 看 到 ， 构 建 处 
理 图 像 甚至 视频 文件 的 机 右 学 习 应 用 ， 也 是 很 容易 的 。 不 泄 是 什么 格式 ， 一 旦 锁定 了 作 种 
数据 ， 那 么 了 解 该 数据 中 有 什么 以 及 没有 什么 ， 束 变 得 非 第 重要 了 。 


1.1.2 检 桔 和 探索 


一 旦 获得 了 数据 ， 下 一 步 束 是 检查 和 探索 它们 。 在 这 个 阶段 中 ， 主 要 的 目标 是 合理 
地 检查 数据 ， 而 实现 这 一 点 的 最 好 办 法 是 发 现 不 可 能 或 几乎 不 可 能 的 事情 。 举 个 例子 ， 
如 条 数据 具有 唯一 的 标识 符 ， 检 查 是 售 真 的 只 有 一 个 ， 如 果 数 据 是 基于 价格 的 ， 检 查 是 
个 总 为 正 数 : 无论 数 据 是 何 种 类 型 ， 检 查 最 极端 的 情况 。 它 们 是 人 否 有 意义 ? 一 个 民 好 的 
实践 是 在 数据 上 运行 一 些 简 单 的 统计 测试 ， 并 将 数据 可 视 化 。 此 外 ， 可 能 还 有 一 些 数据 
是 缺失 的 或 不 完整 的 。 在 本 阶段 注音 到 这 些 是 很 关键 的 ， 因 为 十 要 在 稍 后 的 清洗 和 准备 
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阶段 中 处 理 它 。 只 有 进入 模型 的 数据 质量 好 了 ， 模 型 的 质量 才能 有 保障 ， 所 以 将 这 一 步 
做 对 是 非常 关键 的 。 


1.1.3 清理 和 准备 


当 所 有 的 数据 准备 就 红 ， 下 一 步 是 将 它 转化 为 适合 于 模型 使 用 的 格式 。 这 个 阶段 包括 
石 二 过程， 例如 过 小 、 聚 集 、 输 入 和 转化 。 所 二 的 操作 类 型 将 很 大 程度 上 取决 于 数据 的 类 
型 ， 以 及 所 使 用 的 库 和 算法 的 类 型 。 例 如 ， 对 于 基于 自然 语言 的 文本 ， 其 所 需 的 转换 和 时 
间 序 列 数据 所 需 的 转换 是 非常 不 同 的 。 全 书 中 ， 我 们 将 会 看 到 一 些 转换 的 的 例子 。 


1.1.4 建 模 


一 旦 数据 的 准备 完成 后 ， 下 一 阶段 束 是 建 柑 了 。 在 这 个 阶段 中 ， 我 们 将 选择 适当 的 算 
法 ， 并 在 数据 上 训练 出 一 个 使 型 。 在 这 个 阶段 ， 有 许多 最 佳 实 践 可 以 遵循 ， 我 们 将 详细 讨 
论 它们 ， 但 是 基本 的 步骤 包括 将 数据 分 割 为 训练 、 测 试 和 验证 的 集合 。 这 种 数据 的 分 割 可 
能 看 上 去 不 合 逻 辑 一 无 其 是 在 更 多 的 数据 通 币 会 产生 更 好 的 模型 这 种 情况 下 一 一 但 正如 
我 们 将 看 到 的 ， 这 样 做 可 以 让 我 们 获得 更 好 的 反馈 ， 理 解 该 模型 在 现实 世界 中 会 表现 得 如 
何 ， 并 避免 建 模 的 大 忌 : 过 拟 合 。 


1.1.5 评估 


一 旦 模型 构建 完成 并 开始 进行 预测 ， 下 一 步 是 了 解 模 型 做 得 有 多 好 。 这 是 评估 阶段 试 
图 回答 的 问题 。 有 很 多 的 方式 来 衡量 模型 的 表现 ， 同 样 ， 这 在 很 大 程度 上 依赖 于 所 用 数据 
和 模型 的 类 型 ， 不 过 就 整体 而 言 ， 我 们 试图 回 众 这 样 的 问题 ， 模 型 的 预测 和 实际 值 到 确 有 
多 接近 。 有 一 堆 听 上 去 令 人 泥 清 的 名 词 ， 例 如 根 均 方 误 产 、 欧 几 里 德 距 离 ， 以 及 Fl 得 分 ， 
但 最 终 ， 它 们 还 是 实际 值 与 预 信 值 之 间 的 距离 量度 。 


1.1.6 部 署 
一 旦 模型 的 表现 令 人 满意 ， 那 么 下 一 个 步骤 融 是 部 普 了 。 根 据 具 体 的 使 用 情况 ， 这 个 


阶段 可 能 有 不 同 的 形式 ， 但 第 见 的 场景 包括 将 其 作为 男 一 个 大 型 应 用 程序 中 的 条 个 功能 特 
性 ， 一 个 定制 的 Web 应 用 程 计 ， 其 至 只 是 一 个 简单 的 cron 作业 。 




































































1. 2 Python 库 和 功能 


现在 ,我 们 已 经 对 数据 科学 工作 访 的 每 一 步 有 了 初步 的 理解 ， 下 面 来 看 看 在 每 一 步 中 ， 
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存在 哪些 有 用 的 Python 库 和 功能 可 供 选 择 。 
1.2.1 获取 


访问 数据 弟 见 的 方式 之 一 是 通过 REST 风格 的 API 接口 ， 需 要 知道 的 库 古 Python Request 
库 (hnttp://www.python-requests.org/en/latest/)。 它 被 称 为 给 人 类 使 用 的 
HTTP， 为 API 的 交互 提供 了 一 个 整洁 和 简单 的 方式 。 

让 我 们 来 看 一 个 使 用 Requests 进行 交互 的 例子 ， 它 从 GitHub 的 API 中 拉 取 数据 。 在 
这 里 ， 我 们 将 对 该 API 进行 调用 ， 并 请 求 某 个 用 户 的 starred 库 列表 。 


import requests 
r = requests.get(r"https://api.github.com/users/acombs/starred") 





r.json() 
这 个 请 求 将 以 JSON 文档 的 形式 ， 返 回 用户 已 经 标记 为 starred 的 所 有 存储 库 以 及 它们 的 
属性 。 图 1-2 是 上 述 调用 后 输出 结果 的 一 个 片段 。 





[It{'arsbive uril's httpe: /apl.github.com reposnatryear/bltbar: (archiee format}{/ref}", 
' 各 训 生生 可 BB UFl's httpsi/ /api. github. comi repos/matryer/bithar:adsignees| (user} ', 
‘blobs url': ‘httpes//api.github.comirepos natryar/bitbar/git/blobel/ahal} '; 

‘brancheae Wrl't "httpair/ /ami.github. om/repoa/matryeribitkar .branehee{ braneh}y', 
‘luans url's httpsel/ /githab con/matryeribitbhear.git's 

‘collaboratores url"s ‘bttps://api.github.comi reposmatryeribiltbar/colilaboratora{t/collaborator} ", 
"Rt El' i "httpeir/aBi,githib.d0nm repoa/natryer/ hitbhar /omentes| Ramer} ', 
‘it UF's "httpes raplgithub: som repoenatryer/ibitbharisommite{ ahal} ', 

‘mE UrFl's httpei/ rapi. qithub. com/repoap natryer/blithar, compare, {baae}., .heed ' 
‘contents url's httpar/anigithub.comn/reroa/mmtryeribitbarcontents (+rath}', 
‘contributora Url's httpas/ rapl. slithub., com/repoa /matryer bithar/contribntora" , 
‘rested at"r 2013m1l]-lTT211D0r122', 

‘atanilt bransh’': master', 

‘eployments url t bttpei/ /api. githus. mm repes/matryer/bithar/deploymenta" , 
description': Fut the output from any Script oF RFQJIAn Ln Tour Hac O08 其 Meny 日 3 
‘wn laada urFl's ‘httpei/ api. github. com/repos /matryer/blthar/downiloades" , 

‘vents url"r ‘httpss/ api.github.comrepos/matryeribitber/events' e 

‘ForEk': Falser 

EGERE Ft 17d, 

' EOFks count's L744 





图 1-2 





Requests 库 有 数量 怀 人 的 特性 一 这 里 无 法 全 部 涵 瘟 ， 我 建议 你 看 看 上 面 捉 供 的 链 
接 所 指 回 的 文档 。 


1.2.2 检查 


由 于 数据 检查 是 机 强 学 习 应 用 开 友 中 关键 的 一 步 ， 我 们 现在 来 深入 了 解 几 个 库 ， 它 们 
将 在 此 项 任务 中 很 好 地 为 我 们 服务 。 


1. Jupyter 记事 本 
许多 库 有 助 于 减轻 数据 检查 过 程 的 工作 负荷 。 首 先是 带 有 IPython 
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(nttp://ipython.org/) 的 Jupyter 记事 本 。 这 是 一 个 全 面 的 、 交 互 式 的 计算 环境 ， 对 
于 数据 探索 是 非常 理想 的 选择 。 和 大 多 数 开 发 环境 不 同 ，Jupyter 记事 本 是 一 个 基于 Web 的 
前 并 (相对 于 IPython 的 内 核 而 言 )， 被 分 成 单个 的 代码 块 或 单元 。 根 据 需 要 ， 单 元 可 以 单 
独 运行 ， 也 可 以 一 人 次 全 部 运行 。 这 使 得 开发 人 员 能 够 运行 菜 个 场景 ， 看 到 输出 结果 ， 然 后 
回 到 代码 ， 做 出 调整 ， 再 看 看 所 产生 的 变化 一 一 所 有 这 些 都 无 需 离 开 记 事 本 。 图 1-3 是 在 
Jupyter 记事 本 中 进行 交互 的 样 例 。 





二 有 名 pyter JW Dome Last Oreckpoint: 15 minubes og [mutosnved 


E 中 | | 和 se -Cl Tos ki 


n ji dmport ce 


n [al]: se.9rtswadd] 


Bar Cat 


n ] co.obdirt’' :Deereialaccomber teesktni Ipytbn Cernor'l 


0 [ji lpwd 


UsersialeroomibasiCenktop IPrthos Lemm 





图 1-3 


请 注意 ， 我 们 在 这 里 做 了 一 系列 的 事情 ， 并 不 仅仅 是 和 IPython 的 后 并 进行 交互 ， 而 
且 也 和 终端 shell 进行 了 交互 。 这 个 特定 的 实例 运行 了 Python 3.5 的 内 核 ， 但 如 有 果 你 愿意 ， 
也 可 以 很 容易 地 运行 Python 2.X 的 内 核 。 在 这 里 ， 我 们 已 经 引入 了 Python os 库 ， 并 进行 
了 一 次 调用 ， 找 到 当前 的 工作 目录 (单元 #2)， 你 可 以 看 到 输入 代码 单元 格 下 方 的 输出 。 
然后 ， 我 们 在 单元 #3 中 使 用 os 库 改 变 了 这 个 目录 ,， 但 是 在 单元 并 4 中 俘 止 使 用 os 库 ， 而 
是 开始 使 用 基于 Linux 的 命令 。 这 有 是 通过 在 单元 前 添加 ! 符号 来 完成 的 。 在 单元 #6 中 可 
以 看 到 ， 我 们 甚至 能 够 将 shell 的 输出 保存 到 一 个 Python 变量 (file _ two)。 这 是 一 个 很 
标的 功能 ， 使 文件 操作 变 成 了 一 项 徐 单 的 任务 。 

现在 ， 让 我 们 来 看 看 使 用 该 记事 本 所 进行 的 一 些 简 单 的 数据 操作 。 这 也 是 我 们 首次 介 
绍 另 一 个 不 可 或 缺 的 库 : pandas。 














2. Pandas 
Pandas 是 一 个 蛙 越 的 数据 分 析 工 具 。 根 据 Pandas 的 文档 
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(httos/ /anmaas aate opanaaes=aaocs /version/0.17 /六 
它 有 一 个 更 广泛 的 目标 ， 束 是 成 为 任何 语言 中 ， 最 强大 和 灵活 的 开源 数据 分 析 / 操 作 工 具 。 
即使 它 还 没有 达到 这 个 目标 ， 也 不 会 差 得 太 远 。 现 在 让 我 们 来 看 看 。 


import os 








import pandas as pd 
import requests 


PATH = r'/Users/alexcombs/Desktop/iris/' 


I 二 
requests.get('https://archive.ics.uci.edu/ml/machine-learning-databases/iri 
s/iris.data') 


with open (PATH + ‘'iris.data', 'w') as 工 : 
f.write(r.text) 


os.chdir (PATH) 


df = pd.read csv(PATH + 'iris.data', names=['sepal length', 'sepal width', 
"PetalL length', ‘petal width', '‘'class']) 


df .head () 

前 面 的 代码 和 屏幕 截图 如 图 14 所 示 ， 我 们 已 经 从 
httos:y//archive, desuca， AAA 下 载 了 一 个 经 典 的 机 器 学 习 数 
据 集 : iris.data， 并 将 其 写 入 iris 目录 。 这 实际 上 是 一 个 CSV 文件 ， 通 过 Pandas， 
我 们 进行 了 一 个 调用 并 读 取 了 该 文件 。 我 们 还 增加 了 列 名 ， 因 为 这 个 特定 的 文件 缺 一 个 标 
题 行 。 如 果 该 文件 已 经 包含 了 一 个 标题 行 ，Pandas 会 自动 解析 并 反映 这 一 点 。 和 其 他 CSV 
库 相 比 ，Pandas 将 其 变 为 一 个 简单 的 操作 。 


| | | | 
DC 
oe elem 





OTE EE 
OTE EE 
lo le he lo reom 








1-4 
解析 文件 只 是 该 库 的 一 个 小 功能 。 对 适合 于 单 台 机 堪 的 数据 集 而 言 ，Pandas 是 个 终极 
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的 工具 ， 这 有 点 像 Excel。 残 像 流 行 的 电子 表格 程序 ， 操 作 的 基本 单位 是 表格 形式 的 数据 列 
和 行 。 在 Pandas 的 术语 中 ， 数 据 列 称 为 系列 〈Series)， 而 表格 称 为 
数据 框 (DateFrame ) 。 

使 用 之 前 截屏 中 同样 的 iris 数据 框 ， 让 我 们 来 看 看 几 个 常见 
的 操作 。 

df['sepal length'] 

前 面 的 代码 生成 图 1-5 的 输出 。 

第 一 个 操作 是 通过 列 名 ， 从 数据 框 中 选择 菏 一 列 。 执 行 数据 切 
厂 的 男 一 种 方式 是 使 用 .ix[row, column] 标 注 。 让 我 们 使 用 下 面 
这 个 标注 ， 来 选择 前 两 列 和 前 四 行 。 

df.ix[:3, :2] 

前 面 的 代码 生成 图 1-6 的 输出 。 

使 用 .ix 标注 和 Python 列表 切片 的 语法 ， 我 们 能 够 选择 该 数据 框 中 的 一 小 片 。 现 在 ， 
让 我 们 更 进一步 ， 使 用 列表 友 代 磊 并 只 选择 摘 述 width 的 列 。 

df.ix[:3, [x for x in df.columns if 'width' in x]] 


前 面 的 代码 生成 图 1-7 所 示 的 输出 。 





由 
1 
2 
3 
生 
5 
6 
i 
8 


Sn Ni 
于 











图 1-6 图 1-7 


我 们 在 这 里 所 做 的 是 创建 一 个 列表 ， 该 列表 是 所 有 列 的 一 个 子 集 。 前 面 的 
df.columns 返回 所 有 列 的 列表 ， 而 我 们 的 迭代 使 用 了 一 个 条 件 查 询 ， 只 选择 标题 中 含有 
width 字样 的 列 。 显 然 ， 在 这 种 情况 下 ， 我 们 可 以 很 容易 地 拼写 出 希望 在 列表 中 出 现 的 列 ， 
但 是 这 里 展示 了 处 理 大 规模 数据 集 时 该 库 所 具有 的 能 

我 们 已 经 看 到 了 ， 如 何 基于 其 在 数据 框 中 的 位 置 ， 来 选择 数据 的 分 片 ， 现 在 来 看 看 另 
一 种 选择 数据 的 方法 。 这 次 ， 我 们 将 根据 某 些 特定 的 条 件 ， 来 选择 数据 的 一 个 子 集 。 我 们 
首先 列 出 所 有 可 用 的 唯一 类 ， 然 后 选择 其 中 之 一 。 


df['class'] .unidue () 
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前 面 的 代码 生成 图 1-8 的 输出 。 





df[df['class']=='Iris-virginica'l] 


在 图 1-9 所 示 最 右 侧 的 一 列 中 ， 我 们 可 以 看 到 数据 框 只 包含 Iris-virginica 类 的 
数据 。 事 实 上 ， 选 择 之 后 图 1-11 中 数据 框 的 大 小 是 50 行 ， 比 图 1-10 中 原来 的 150 行 要 小 


此， 


df .count () 


df[df['class']=='Iris-virginica'] .count() 


| | em | | | 
区 EE EE 
DO 2 
EE EE 
EE EE CE 
oes so le le ran 
OO TE I CE 
站 EC 
[EEC 


人 了 
[CT 
UO EE 


花 苯 长 度 

花 莹 宽度 

花 泊 长 度 

花 兴 宽度 

类 别 

数据 类 型 : int64 数据 类 型 : int64 





图 1-10 图 1-11 


我 们 还 可 以 看 到 ， 在 左 侧 的 索引 保留 了 原始 行 号 。 现 在 ， 可 以 将 这 些 数据 保存 为 一 个 
新 的 数据 框 并 重 置 索引 ， 如 下 面 的 代码 和 截图 1-12 所 示 。 


virginica = dfl[ldf['class']=='Iris-virginica'] .reset index (drop=True) 
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virginica 


| 花 区 长度 | 花 划 宽度 | 花 沽 长度 | 花 尖 宽 度 | 类 别 
ls ls lo ls lev 
OE CE 

E ica 


Iris-virgin 


Iris-virgin 
Iris-virgini 
Iris-virgini 
Iris-virgini 
Iris-virgin 


Iris-virgin 





. 去 a 
Ea nm 





| 


Ls12 


我 们 通过 在 某 个 列 上 放置 条 件 来 选择 数据 ， 现 在 来 添加 更 多 的 条 件 。 我 们 将 回 到 初始 
的 数据 框 ， 并 使 用 两 个 条 件 选择 数据 。 


df[ (df['class']=='Iris-virginica')&(df['petal width']>2.2)] 


上 述 代 人 码 生 成 图 1-13 的 输出 。 


| | | | 
ls ls lo lss lewone 
ool le le ls ore 
ls le le one 
ED 
ED EE CC 


OD 
EE 
CE 


1-13 


数据 框 现在 只 包含 来 自 Iris-virginica 类 、 而 且 花 办 宽度 大 于 2.2 的 数据 。 





Iris-vi 


Iris-virginica 


Iris-virginica 
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现在 ， 让 我 们 使 用 Pandas， 从 虹膜 数据 集中 获取 一 些 快速 的 描述 性 统计 数据 。 
df .describe() 


上 述 代 码 生 成 图 1-14 的 输出 。 





| er | er | 


图 1-14 


随 看 数据 框 的 .gescribe () 方 法 被 调用 , 我 们 收 到 了 各 相关 列 的 描述 性 统计 信息 〈 请 
注意 ， 关 别 信息 被 目 动 删除 了 ， 因 为 它 在 这 里 是 不 相关 的 )。 如 采 想 要 更 为 详细 的 信息 ， 还 
可 以 传 入 目 定 义 的 百分比 。 

Qt .describe (percentiles=[.20,.40,.80,.90,.95]) 


上 述 代 码 生 成 图 1-15 的 输出 。 


数量 |150.000000 |150.000000 |150.000000 |150.000000 


图 1-15 
接 下 来 ， 让 我 们 检查 这 些 特 征 之 间 是 个 有 任何 相关 性 。 这 可 以 通过 在 数据 框 上 调 




















Ee 
AL 
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用 .corr () 来 完成 。 


df .corr() 


上 述 代码 生成 图 1-16 的 输出 。 


1-16 


默认 地 ， 系 统 返 回 每 个 行 - 列 对 中 的 Pearson 相关 系数 。 通 过 传递 方法 的 参数 ， 还 可 以 
切换 到 Kendall's tau 或 Spearman's 秩 相 关系 数 〈 例 如 ，.corr (method="spearman") 
或 .corr (method="kendall") )。 

3， 可 视 化 


目前 为 止 ， 我 们 已 经 看 到 如 何 选择 数据 框 的 某 一 部 分 ， 并 从 数据 中 获取 汇总 的 统计 信 
晨 ， 现 在 让 我 们 学 习 如 何 通 过 可 视 化 的 方式 来 观测 数据 。 不 过 首先 要 回答 的 问题 是 ， 为 什 
么 要 花费 心思 进行 可 视 化 的 视察 呢 ? 来 看 一 个 例子 就 能 明日 这 是 为 什么 了 。 

表 1-1 展示 了 四 组 不 同 序列 的 x 值 和 y 值 的 汇总 统计 。 

表 1-1 











Ea 








基于 四 组 序列 拥有 相同 的 汇总 统计 ， 我 们 可 能 会 认为 这 些 系 列 的 可 视 化 看 上 去 也 是 相 
似 。 我 们 当然 是 错误 的 ， 非 党 错误 。 这 四 个 序列 是 安 斯 库 姆 四 重奏 的 一 部 分 ， 他 们 被 刻意 
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制造 出 来 用 于 说 明 可 视 化 数据 检查 的 重要 性 。 每 个 序列 绘制 在 图 1-17 中 。 

斯 站 姆 四 重 委 的 网 址 
https://en.wWIKipedqia.ord/wiki/Anscombes27sdquartet。 

显然 ， 经 过 可 视 化 的 观察 之 后 ， 我 们 不 再 会 认为 这 些 数据 集 征 相同 的 。 所 以 ， 现 在 我 
们 能 理解 可 视 化 的 重要 性 了 ， 下 面 来 看 看 一 对 用 于 可 视 化 的 、 很 有 价值 的 Python 库 。 




















本 
10 12 14 16 18 8 10 12 14 16 18 
X3 X4 





1-17 


Matplotlib 库 








我 们 将 要 看 到 的 第 一 个 库 是 matplotlib。 这 是 Python 绘图 库 的 时 衫 了 。 最 初 人 们 创 
建 它 是 为 了 仿效 MATLAB 的 绘图 功能 , 现在 它 目 己 已 经 及 展 成 为 特性 完善 的 库 了 ,并 拥有 
超 多 的 功能 。 对 于 那些 没有 MATLAB 背景 的 使 用 者 ,可 能 很 难 理解 所 有 这 些 部 件 是 如 何 共 
同 协作 来 创造 图 表 的 。 

我 们 将 所 有 的 部 件 拆 分 为 多 个 多 辑 模 匡 ， 便 于 大 家 理解 都 及 生 了 些 什么 。 在 深入 理解 
matplotlib 之 前 ， 让 我 们 先 设 置 Jupyter 记事 本 ， 以 便 看 清 每 个 图 像 。 要 做 到 这 一 点 ， 
需要 将 以 下 几 行 添加 到 import 声明 中 。 


import matplotlib.pyplot as plt 








plt.style.use('ggplot') 
smatplotlib inline 
import numpy as np 
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第 一 行 引 入 了 matplot1ib， 第 二 行将 风格 设置 为 近似 R 中 的 ggplot 库 〈 这 需要 
matplotlib 1.41)， 第 三 行 设 置 插图 ， 让 它们 在 记事 本 中 可 见 ， 而 最 后 一 行 引 入 了 numpy。 
本 章 稍 后 ， 我 们 将 在 一 些 操作 中 使 用 numpy。 

现在 ， 让 我 们 使 用 下 面 的 代码 ， 在 总 尾 花 Iris 数据 集 上 生成 第 一 个 图 : 


fig, ax = plt.subplots (figsize=(6,4)) 
ax.hist(df['petal width'], color='black'); 

ax.set ylabel('Count', fontsize=12) 

ax.set xlabel('Width', fontsize=12) 
plt.title('Iris Petal Width', fontsize=14, y=1.01) 


前 面 的 代码 生成 图 1-18 中 的 输出 。 


塌 尾 花花 汶 的 宽度 











05 10 15 20 四 本 


度 





图 1-18 


即使 是 在 这 个 简单 的 例子 中 ， 也 发 生 了 很 多 事情 ， 让 我 们 来 逐 行 分 析 。 第 一 行 创建 了 
宽度 为 6 英寸 和 高 度 为 4 英寸 的 一 个 插图 。 然 后 ， 我 们 通过 调用 .nist () 并 传 入 数据 ， 依 
照 iris 数据 框 绘 制 了 花瓣 宽度 的 直方 图 ,这 里 还 将 直方 图 中 柱子 的 颜色 设置 为 plack( 黑 
色 )。 接 下 来 的 两 行 分 别 在 y 轴 和 x 轴 上 放置 标签 ,最 后 一 行为 全 图 设置 了 标题 。 其 中 使 用 
y 轴 的 参数 调整 了 标题 在 y 轴 方 向 相对 于 图 片 顶 部 的 位 置 ， 并 微微 增加 了 默认 字体 的 大 小 。 
这 使 得 我 们 从 花瓣 宽度 的 数据 得 到 了 一 个 很 漂亮 的 直方 图 。 现 在 ， 让 我 们 进一步 扩展 ， 为 
iris 数据 集 有 的 每 一 列 生 成 直方 图 。 


fig, ax = plt.subplots(2,2, figsize=(6,4)) 














ax[0] [0] .hist(df['petal width'], color='black'); 
ax[0] [0] .set ylabel('Count', fontsize=12) 
ax[0] [0] .set xlabel('Width', fontsize=12) 
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请 注音 
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ax[0][0] 


ax[0][1] 
ax[0][1] 
ax[0][1] 
ax[0][1] 


ax[1] [0] 
ax[1] [0] 
ax[1] [0] 
ax[1] [0] 


ax[1] [1] 
ax[1] [1] 
ax[1] [1] 
ax[1] [1] 


.Set title('Iris Petal Width', 


.hist(df['sepal length'], color= 
.Set ylabel('Count', 
.Set xlabel('Length', 
.Set title('Iris Sepal Length ' ， 


fontsize=14, y=1.01) 


.hist(df['petal length'], color='black'); 
.set ylabel('Count', 
.Set xlabel('Lenth', 
.Set title('Iris Petal Lenth', 


fontsize=12) 
fontsize=12) 


fontsize=14, y=1 .01) 


.hist(df['sepal width'], color='black'); 
.Set ylabel('Count', 
.Set xlabel ('Width', 
.set title('Iris Sepal Width', 


fontsize=12) 
fontsize=12) 
fontsize=14, y=1.01) 
'black'); 
fontsize=12) 

fontsize=12) 


fontsize=14, y=1.01) 


plt.tight layout () 


上 述 代码 的 输出 显示 如 图 1-19 所 示 。 


显然 ， 


a 
Lp) 

3 
或 这 

六 二 

dl 
15 

") 
了 UL 
于 





营 尾 花花 办 的 宽度 高 尾 人 花花 办 的 长 度 


. _ 人 访 = ey 
1 二 了 4 2 0 / 


萝 的 宽度 


ee 


有 2 
日 
县 
0 1 
: 
. | 嘲 | 


究 度 - 


1-19 








这 不 是 最 有 效 的 编码 方法 ， 但 是 对 于 展示 matplot1lib 是 如 何 工作 的 很 有 用 处 。 
， 我们 现在 是 通过 ax 数组 来 绘制 四 个 子 插图 , 而 不 是 之 前 例子 中 的 单一 子 插图 对 象 
ax。 新 增加 的 代码 是 调用 plt.tight layout () 





， 该 方法 将 很 好 地 目 动 调整 子 插图 ， 以 


避免 排版 上 显得 过 于 拥挤 。 


现在 来 看 看 matplotlib 所 提供 的 一 


些 其 他 类 


些 其 他 类 型 的 画图 模式 。 一 个 有 用 的 类 型 是 


散 点 图 。 
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这 里 ， 我 们 将 在 x 轴 和 yy 轴 分 布 绘画 伦 匆 党 度 和 论 浙 长 度 。 


fig, ax = plt.subplots (figsize=(6,6)) 

ax.scatter(df['petal width'] ,df['petal length'], color='green') 
ax.set xlabel('Petal Width') 

ax.set ylabel('Petal Length') 

ax.set title('Petal Scatterplot') 


上 述 的 代码 生成 了 图 1-20 所 示 的 输出 。 
花 泊 散 点 图 





1-20 


如 前 所 述 ， 我 们 可 以 添加 多 个 子 插 图 ， 来 检视 每 个 方面 。 
我 们 可 以 考察 的 男 一 种 类 型 是 简单 的 线 图 。 这 里 来 看 看 花瓣 长 度 的 插图 。 


fig, ax = plt.subplots (figsize=(6,6)) 
ax.plot(df['petal length'], color='blue') 
ax.set xlabel('Specimen Number') 

ax.set ylabel('Petal Length') 

ax.set title('Petal Length Plot') 


上 述 的 代码 生成 了 图 1-21 所 示 的 输出 。 

基于 这 个 简单 的 线 图 ， 我 们 已 经 可 以 看 到 对 于 每 个 类 别 存 在 鲜明 的 长 度 差 别 一 一 请 记 
住 样本 数据 集 在 每 个 类 别 拥有 50 个 排序 的 样 例 。 这 束 告 诉 我 们 ,论辩 长 度 很 可 能 是 用 于 区 
分 类 列 的 一 个 有 用 特征 。 
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化 办 长 度 图 


”样本 编号 





图 1-21 


让 我 们 来 看 看 matplot1lib 库 中 最 后 一 个 类 型 的 图 表 : 条 形 图 。 这 也 许 是 最 为 第 见 的 
图 表 之 一 。 这 里 将 使 用 三 类 高 尾 化 中 每 个 特征 的 平均 值 绘 制 一 个 条 形 图 ， 而 且 为 了 让 其 更 
有 趣 ， 我 们 将 使 用 堆积 条 形 图 ， 它 附 市 了 石 干 新 的 matplotlib 特性 。 


fig, ax = plt.subplots (figsize=(6,6)) 
bar width = .8 





labels = [x for x in df.columns If ‘length' in x or 'width' in x] 
ver y = [dfl[ldf['class']=='Iris-versicolor'] [x] .mean() for x in labels] 
vir y = [dfl[ldf['class']=="'Iris-virginica'] [x] .mean() for x In labels] 
set y = [dfl[ldf['class']=='Iris-setosa'] [x] .mean() for x In labels] 


x = np.arange (len (labels)) 

ax.bar (x, Vir y, bar width, bottom=set y, color='darkgrey ') 
ax.bar (x, set y, bar width, bottom=ver y, color='white') 
ax.bar (x, ver y, bar width, color='black') 

ax.set xticks(x + (bar width/2)) 

ax.set xticklabels (labels, rotation=-70, fontsize=12); 
ax.set title('Mean Feature Measurement By Class', y=1.01) 
ax.legend(['Virginica','Setosa','Versicolor']) 


上 述 的 代码 生成 图 1-22 所 示 的 输出 。 
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out [160]: <matplotlib.legend.Legend at 0x111524cdq0> 


每 个 类 别 中 特征 的 平均 测量 值 


12 
Virginica 
Setosa 
mam Versicolor 





52 


为 了 生成 条 形 图 ， 我 们 需要 将 x 和 y 的 值 传递 给 .ba () 方 法。 在 这 种 情况 下 ，x 值 
将 只 是 我 们 感 兴趣 的 特征 的 长 度 的 数组 ， 在 这 个 例子 中 是 4， 或 者 是 数据 框 中 列 的 数量 。 
国 数 np .arange () 是 产生 这 个 数值 的 简单 方法 ， 但 也 可 以 轻松 地 手动 输入 这 个 数组 。 由 
于 我 们 不 想 在 x 轴 显示 1 到 4， 因 此 调用 了 .set xticklabels () 方 法 并 传 入 想 要 显示 的 列 
名 。 为 了 让 x 轴 的 标签 对 齐 ， 我 们 还 需要 调整 标签 之 间 的 间隔 。 这 就 是 为 什么 将 xticks 
设置 为 x 加 上 bar wigtn 值 的 一 半 ， 而 我 们 先前 已 经 将 bar _wiaqth 设置 为 0.8。 这 里 y 
值 来 自 每 个 类 别 中 特征 的 平均 值 。 然 后 ， 通 过 调用 .bar () 绘制 每 个 插图 。 需 要 注意 的 是 ， 
我 们 为 每 个 序列 传 入 一 个 pottom 参数 ， 这 个 参数 将 该 序列 的 y 点 最 小 值 设置 为 其 下 面 那 
个 序列 的 y 点 最 大 值 。 这 残 能 创建 堆积 条 形 图 。 最 后 ， 添 加 了 一 个 图 例 来 描述 每 个 序列 。 
按照 从 顶部 到 底部 条 形 放 置 的 顺序 ， 我 们 依次 在 图 例 中 插入 了 相应 的 名 称 。 








Seaborn 库 


我 们 捷 下 来 将 看 到 的 可 视 化 库 被 称 为 。 seaborn 
KE SanEoea sa vwaskonm/ softwyare/ sesabceny inase tml;,y 世 且 专 | ] 
为 统计 可 视 化 而 创建 的 库 。 事 实 上 ，seaborn 可 以 和 pandas 数据 框 完美 地 协作 ， 框 中 的 
列 是 特征 而 行 古 观测 的 样 例 。 这 种 数据 框 的 风格 被 称 为 整洁 的 数据 ， 而 且 它 是 机 右 学 习 应 
用 中 最 第 见 的 形式 。 
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现在 让 我 们 来 看 看 seaborn 的 能 力 。 


import seaborn as sns 
sns.pairplot(df, hue="class") 


仅仅 通过 这 两 行 代码 ， 我 们 就 可 以 得 到 图 1-23 所 示 的 输出 。 


Out[175]: <seaborn.axisgrid.PairGrid at 0x1115e9390> 


类 别 
. Iris-setosa 
a Iris-versicolor 


Iris-virginica 





1-23 


就 在 刚刚 我 们 详细 地 讨论 了 matplotlib 错综复杂 的 细微 之 处 ， 而 生成 这 张 图 的 简单 
ed pa 了 两 行 代 码 ， 所 有 的 特征 都 已 经 被 绘画 出 来 ， 彼 此 对 照 并 标 上 了 
正确 的 标签 。 那么 , 当 seaborn 使 得 这 种 可 视 化 变 得 如 此 简单 的 时 候 , 学 习 matp1lot1ib 





MO 


we 驻 运 的 是 ， 情 况 并 非 如 此 ，seaborn 是 建立 在 matplotlip 之 上 的 。 
事实 上 ， 我 们 可 以 使 用 所 学 的 matplotlib 知识 来 修改 并 使 用 seaborn。 让 我 们 来 看 看 
另 一 个 可 视 化 的 例子 。 


fig, ax = plt.subplots(2, 2, figsize=(7, 7)) 
sns.set(style='white', palette='muted') 
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sns.violinplot (x=df['class'], y=df['sepal length'], ax=ax[0,0]) 
sns.violinplot (x=df['class'], y=df['sepal width'], ax=ax[0,1]) 
sns.violinplot (x=df['class'], y=df['petal length'], ax=ax[l1,0]) 
sns.violinplot (x=df['class'], y=df['petal width'], ax=ax[l1,1]) 
fig.suptitle('Violin Plots', fontsize=16, y=1.03) 

for i In ax.flat.: 

plt.setp(i.get xticklabels(), rotation=-90) 

fig.tight layout() 


以 上 代码 行 生 成 图 1-24 所 示 的 输出 。 


Violin Plots 
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这 里 ， 我 们 为 4 个 特征 分 别 生 成 了 小 提 俊 图 。 小 提 鞭 图 显示 了 特征 的 分 布 情况 。 例 如 ， 
我 们 可 以 很 容易 地 看 到 类 别 irissetosa 的 花 准 长 度 遍 上 度 聚 集 在 1 一 2 厘米 之 则 ， 而 类 别 
iris-virginica 分 散在 4~7 厘米 之 间 。 我 们 还 可 以 看 到 ， 之 前 在 构建 matplotlib 
图 形 时 使 用 了 许多 相同 的 代码 。 这 里 主要 的 区 别 在 于 加 入 了 sns .plot() 调用 来 取代 之 前 
的 ax.plot() 调 用。 我 们 还 使 用 了 fig.suptitle() 方 法 ， 在 所 有 的 子 图 上 添加 了 一 个 
尽 标题 ， 而 不 是 在 每 个 单独 的 子 图 上 各 目 洪 加 标题 。 男 一 个 明显 的 添加 部 分 ， 是 每 个 子 图 
的 过 历 取代 了 之 前 xticklabels 的 轮换 。 我 们 调用 ax.flat ()， 人 退 历 每 个 子 图 的 轴 ， 
并 使 用 .setp0 设 置 特定 的 属性 。 这 可 以 让 我 们 不 再 需要 像 之 前 matplot1lib 子 图 代码 那样 ， 
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单独 地 斋 打 ax[0] [0]...ax[1] [1]， 并 设置 属性 。 


我 们 在 这 里 使 用 的 图 是 一 个 很 好 的 开始 ， 但 是 你 可 以 使 用 matplotlib 和 seaborn 创建 上 
百 种 不 同 风格 的 图 形 。 我 强烈 建议 深入 研究 这 两 个 库 的 文档， 这 将 是 非常 值得 的 。 


1.2.3 准备 


我 们 已 经 学 到 了 很 多 有 关 检 查 数据 的 内 容 , 现在 让 我 们 开始 学 习 如 何 处理 和 操作 数据 。 

里 你 将 了 解 pandas 的 Series.map()、Series.apply()、DataFrame. 2PPIY 0 、 
DataFrame.applymap () 和 DataFrame.groupby() 方 法 。 这 些 对 于 处 理 数据 而 言 
非常 有 价值 的 ， 而 且 在 特征 工程 的 机 元 学 习 场 景 下 特别 有 用 ， 我 们 将 在 后 面 的 章 ee 
讨论 这 个 概念 。 























1. Map 


Map 方法 适用 于 序列 数据 ， 所 以 在 我 们 的 例子 中 将 用 它 来 转变 数据 框 的 某 个 列 ， 它 就 
是 一 个 pandas 的 序列 。 假 设 我 们 觉得 类 别 的 名 字 太 长 了 ， 并 且 和 希望 使 用 特殊 的 3 字母 代 
但 系统 对 其 进行 编码 。 为 了 实现 这 点 ,我 们 将 使 用 map 方法 并 将 一 个 Python 字典 作为 其 参 
数 。 这 里 将 为 每 个 单独 的 包 尾 伦 类 型 传 入 殖 换 的 文本 。 








df['class'] = df['class'] .map({'Iris-setosa': 'SET', 'Iris-virginica': 
'VIR', 'Iris-versicolor': 'VER'"'}) 
df 


前 面 的 代码 生成 图 1-25 的 输出 。 


只 








1-25 
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下 面 来 看 看 这 里 做 了 些 什么 。 我 们 在 现 有 class 列 的 每 个 值 上 运行 了 map 的 方法 。 
由 于 每 个 值 都 能 在 Python 字典 中 找到 ， 所 以 它 会 被 添加 到 被 返回 的 序列 。 我 们 为 返回 序列 
赋予 了 相同 的 class 名 ， 所 以 它 奉 换 了 原 有 的 class 列 。 如 果 我 们 选择 了 一 个 不 同 的 名 
字 ， 例 如 shortclass， 那 么 这 一 列 会 被 奶 加 到 数据 框 ， 然 后 我 们 将 有 初始 的 class 列 
外 加 新 的 short class 列 。 


我 们 还 可 以 同 map 方法 传 入 另 一 个 序列 或 图 数 ， 来 执行 对 某 个 列 的 转变， 但 这 个 功 
能 在 apply 方法 也 是 可 用 的 , 下 面 这 节 会 讨论 该 方法 。 字 典 的 功能 是 map 方法 所 独 有 的 ， 
这 也 是 选择 map 而 不 是 app1Ly 进 行 单 列 转变 的 最 间 见 原因 。 现 在 让 我 们 来 看 看 app1ly 方 法 。 














2. Apply 


Apply 的 方法 让 我 们 既 可 以 在 数据 框 上 工作 ， 也 可 以 在 序列 上 工作 。 我 们 将 从 一 个 也 
能 使 用 map 的 例子 开始 ， 然 后 再 讨论 只 能 使 用 apply 的 示例 。 


继续 使 用 iris 数据 框 ， 让 我 们 根据 化 为 的 锅 度 来 创建 新 的 列 。 之 前 我 们 看 到 化 办 宽 
度 的 平均 值 为 13。 现在， 在 数据 框 中 创建 一 个 新 的 列 一 客 化 狼 ， 它 包含 一 个 基于 Petal 
width 列 的 二 进 制 值 。 知 果 仿 狂 宽度 守 寺 或 党 寺中 值 ， 那么 我 们 将 其 编码 为 1， 而 如 果 它 
小 于 中 值 ， 我 们 将 其 编码 为 0。 为 了 实现 这 点 ， 这 里 将 在 petal width 这 列 使 用 apply 
万， 

df['wide petal'] = df['petal width'] .apply (lambda v: 1 if v >= 1.3 else 0) 

df 


前 面 的 代码 生成 图 1-26 所 示 的 输出 。 
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这 里 及 生 了 几 件 事情 ， 让 我 们 一 步 一步 来 看 。 首 先 ， 我 们 为 所 要 创建 的 列 名 简单 地 使 
用 了 列 选 择 的 语法 ， 同 数据 框 仍 加 一 个 新 的 列 ， 在 这 个 例子 中 是 wide petal。 我 们 将 这 
个 新 列 设 置 为 apply 方法 的 输出 。 这 里 在 petal width 列 上 运行 apply， 并 返回 了 了 wide 
petal 列 的 相应 值 。Apply 方法 作用 于 petal width 列 的 每 个 值 。 如 果 该 值 大 于 或 等 于 
1.3， 函 数 返 回 1; 人 否则， 返回 0。 这 种 类 型 的 转换 在 机 器 学 习 领 域 是 相当 普 过 的 特征 工程 
转弯， 所 以 最 好 熟悉 如 何 执行 它 。 


现在 让 我 们 来 看 看 如 何在 数据 框 上 使 用 apply， 而 个 是 在 一 个 单独 的 友 列 上 。 现 在 将 
基于 petal area 来 创建 一 个 新 的 特征 。 
df['petal area'] = df.apply (lambda r: r['petal length'] * r['petal width ']， 


axis=1) 
df 


前 面 的 代码 生成 图 1-27 的 输出 。 
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图 1-27 


请 注意 ， 这 里 不 是 在 一 个 序列 上 调用 appLy， 而 是 在 整个 数据 框 上 。 此 外 正 是 由 于 在 整 
个 数据 框 上 调用 了 apply, 我们 传送 了 axis=1 的 参数 来 行 弄 pandqas， 我 们 要 对 行 运用 函 
数 。 如 果 传 入 了 axis=0， 那 么 该 国 数 将 对 列 进 行 操 作 。 这 里 ， 每 列 都 是 被 顺 序 地 处 理 ， 我 
们 选择 将 petal length 的 值 和 petal width 的 值 相 乘 。 得 到 的 序列 束 将 成 为 数据 框 中 
的 petal area 列 。 这 种 能 力 和 灵活 性 使 得 pandas 成 为 了 数据 操作 不 可 或 缺 的 工具 








3. Applymap 


我 们 已 经 学 习 了 列 的 操作 ， J MT 不 过 ， 假 设 你 想 对 数据 框 里 所 
有 的 数据 早 元 执行 一 个 函数 ， 那 义 访 怎么 办 昵 ? 这 时 applymap 就 是 合适 的 工具 了 。 这 里 
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看 一 个 例子 。 
Qt .apPPLymaP (lambda v: np.log(v) if isinstance(lv, float) else v) 


前 面 的 代码 生成 图 1-28 的 输出 。 


oo 1.629241 1.252763 0.336472 -1.609438 Iris-setosa [0 -1.272966 
1 |1.589235 1.098612 0.336472 -1.609438 |lris-setosa 0 |-1.272966 


| 1.547563 1.163151 0.262364 -1.609438 Iris-setosa |0 -1.347074 
3 1.526056 1.131402 0.405465 -1.609438 Iris-setosa |0 -1.203973 


人 ae rao ooo [ono | ee Jo | 
CE 
| lasso | | so Jo -onorso 
ae | | eps | ee | ao 
ee | or ooo | ape rosoom | | 


1-28 


在 这 里 ， 我们 在 数据 框 上 调用 了 applymap， 如 果 菏 个 值 是 float 类 型 的 的 实例 ， 那 么 
就 会 获得 该 值 的 对 数 (np .1log() 利用 numpy 库 返 回 该 值 )。 这 种 类 型 的 检查 ， 可 以 防止 
系统 返回 一 个 错误 信息 ， 或 者 是 为 字符 串 型 的 class 列 或 整数 形 的 wide petal 列 返回 
浮动 值 。App1Lymap 的 第 见 用 法 是 根据 一 定 的 条 件 标 准 来 转变 或 格式 化 每 一 个 单元 。 














4. Groupby 


现在 ， 让 我 们 来 看 一 个 非常 有 用 ， 但 对 于 新 pandas 用 户 往 往 难 以 理解 的 操作 一 一 数据 
框 .grouppy () 方法。 我 们 将 逐步 分 析 石 干 例子 ， 来 展示 这 个 最 为 重要 的 功能 。 


这 个 groupby 操作 就 如 其 名 一 一 它 基 于 某 些 你 所 选择 的 类 别 对 数据 进行 分 组 , 让 我 们 
使 用 iris 数据 集 来 看 一 个 简单 的 例子 。 这 里 将 回 到 之 前 的 步 台 ,和 章 狐 导入 最 初 的 iris 
数据 集 ， 并 运行 第 一 个 groupby 操作 。 

Qt .gouPby ('clLass ') .mean () 

前 面 的 代码 生成 图 1-29 所 示 的 输出 。 
| 花 著 长 度 | 花 莹 宽度 | 花 六 长 度 | 花 游 宽度 | 宽 花 洲 | 花 汶 面 积 
类别 | 
seem ea je lar ja loo lassm 


i 
7 
0 





5.936 2.770 4.260 1.326 0. 
ris-virginica | 6.588 2.974 5.552 2.026 11.2962 


1-29 
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系统 按照 闫 别 对 数据 进行 了 划分 ， 并 且 提 供 了 每 个 特征 的 均值 。 让 我 们 现在 更 进一步 ， 
得 到 每 个 类 列 完 全 的 描述 性 统计 信息 。 


Qt .groupPby ('class') .qdqescLribe() 


前 面 的 代码 生成 图 1-30 所 示 的 输出 。 


| | | | 
本 
Iris-versicolor 








75% |12.790000 | 5.875000 2.300000 |6.900000 3.175000 1.00000 
最 大 值 | 15.870000 |6.900000 2.500000 |7.900000 3.800000 1.00000 


图 1-30 











现在 我 们 可 以 看 到 每 个 class 完整 的 分 解 。 再 来 看 看 其 他 一 些 可 执行 的 groupby 操作 。 
之 前 ， 我 们 看 出 花 匆 长 度 和 宽度 在 不 同类 之 间 有 一 些 比较 明显 的 区 别 ， 这 里 让 我 们 看 看 如 
何 使 用 groupby 来 发 现 这 一 点 。 

df .groupby ('petal width')['class'] .unique() .to frame () 


前 面 的 代码 生成 图 1-31 所 示 的 输出 。 
在 这 个 例子 中 ， 我 们 通过 和 每 个 唯一 关 相 关联 的 化 为 宽度 ， 对 类 别 进 行 分 组 。 这 里 测 
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让 
GRY 
wl 





量 组 的 数量 还 是 可 管理 的 ， 但 是 如 条 这 个 数量 将 要 增 大 很 多 ， 那 么 我 们 很 可 能 需 
分 割 为 不 同 的 范围 。 正 如 之 前 看 到 的 ， 这 氮 可 以 使 用 apply 方法 来 完成 。 


[Iris-setosal 
[Iris-setosa 
[Iris-versicolor] 
[Iris-versicolor] 
[Iris-versicolon] 


[Iris-versicolon] 


己 


[Ilris-versicolor, lris-virgini 


已 
上 


[lris-versicolor, lris-virgini 


[Iris-versicolor, lris-virginica 


[Iris-versicolor, lris-virgini 


ds 





局 
~ 





已 
种 ， 


[Iris-versicolor, lris-virgini 
[Iris-virginical 
[lris-virginical 
[Iris-virginical 
[Iris-virginical 
[Iris-virginical 
[lris-virginical 


[Iris-virginical 





图 1-31 


现在 来 看 一 个 目 定义 的 聚集 函数 。 


df .groupby('class')['Petal width']\ 


.agg ({'delta': lambda x: x.max() - x.min(), | 
ep 天 | 
前 面 的 代码 生成 图 1-32 所 示 的 输出 。 Mis-setosa |o1 loe |o5 | 


Iris-versicolor |1.0 |1.8 
在 这 段 代码 中 ， 我 们 根据 类 别 来 分 组 花 闪 宽 度 的 时 da 


1.4 |2.5 |1.1 
候 ， 使 用 np .max 和 np .min 这 两 个 图 数 〈 两 个 np 函数 来 目 LT 


numpy 库 )， 以 及 返回 最 大 花瓣 宽度 减 去 最 小 花瓣 宽度 的 1-32 
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1ambda 函 数 。 这 些 都 以 字典 的 形式 ， 传 递 给 .agg () 方法 ， 以 此 返回 一 个 将 字典 键 值 作为 
列 名 的 数据 框 。 可 以 仅仅 运行 函数 本 身 或 者 传递 函数 的 列表 ， 不 过 列 的 名 称 所 含 信息 量 就 
更 少 了 9. 


我 们 只 是 刚刚 接触 了 groupby 方法 的 一 些 功 能 
es ee 
http://pandas.pydata.org/pandas-docs/ 
S| 





对 于 准备 阶段 中 如 何 操纵 和 准备 数据 ， 我 们 现在 有 了 扎实 的 基本 理解 ， 而 下 一 步 就 是 
建 模 。 这 里 即将 讨论 Python 机 器 学 习 生 态 系统 中 最 为 主要 的 一 些 库 。 


1.2.4 建 模 和 评估 


对 于 统计 建 模 和 机 器 学 习 ，Python 有 许多 很 优秀 的 、 文 档 详实 的 库 供 选 择 。 下 面 只 谈 
及 最 流行 的 几 个 库 。 





1. Statsmodels 


我 们 要 介 绍 的 第 一 个 库 是 statsmodels 
(Chto /tatemnodeles soueeftore. net/ 


Statsmodels 是 用 于 探索 数据 、 估 计 模 型 ， 并 运行 统计 检验 的 Python 包 。 在 这 里 ， 让 我 
们 使 用 它 来 构建 一 个 简单 的 线性 回归 模型 ， 为 setosa 类 中 花村 长 度 和 人 花 徊 宽度 之 间 的 天 
系 进行 建 模 。 


自 完 ， 通 过 获 操 图 来 目测 这 两 者 的 关系。 


fig, ax = plt.subplots (figsize=(7,7)) 

ax.scatter (df['sepal width'][:50], df['sepal length'][:50]) 
ax.set ylabel('Sepal Length') 

ax.set xlabel('Sepal Width') 

ax.set title('Setosa Sepal Width vs. Sepal Length', fontsize=14, 
y=1 . 02) 











(D 译 者 注 : 束 是 将 函数 以 列表 的 形式 ， 而 不 是 字典 的 形式 进行 传送 。 这 样 就 缺乏 "delta"、"min" 和 "max" 这 样 的 键 
值 作为 列 名 ， 目 动 生成 的 列 名 就 不 会 有 太 多 的 含义 。 
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前 面 的 代码 生成 图 1-33 所 示 的 输出 。 


Setosa Sepal Width vs. Sepal Length 


伦 莹 宽 度 





图 1-33 
我 们 可 以 看 到 ， 似 乎 有 一 个 正 同 的 线性 关系 ， 也 束 是 说 ， 随 痢 花 苯 宽 上 度 的 增加 ， 人 花 苯 
长 度 也 会 增加 。 接 下 来 我 们 使 用 statsmodels， 在 这 个 数据 集 上 运行 一 个 线性 回归 模型 ， 来 
预 估 这 种 关系 的 强度 。 


import statsmodels.api as sm 








y = df['sepal length'][:50] 
df['sepal width'][:50] 


X = sm.add constant (x) 


X 
中 


results = sm.OLS(y, X) .it () 


print (results.summary () ) 


前 面 的 代码 生成 图 1-34 所 示 的 输出 。 


图 1-34 所 示 的 屏幕 截图 显示 了 这 个 简单 回归 模型 的 结果 。 由 于 这 是 一 个 线性 回归 ， 访 
模型 的 格式 为 Y= B04B1X, 其 Ph B0 i B1 是 回归 系数 ,在 这 里 , 最 终 公式 是 sepal 
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Length = 2.6447 + 0.6909 x Sepal Wigdth。 我 们 也 可 以 看 到 ， 该 模型 的 R2 值 是 





要 ,| 3 2 日 Au 且 节 > > < 
个 可 以 接受 的 0.558， 而 p 值 (Prop) 是 非常 显著 的 一 一 全 少 对 于 这 个 类 而 言 。 
OLS Regression Results 

Dep. Variable: sepal length R-squared: 0.558 
Model: OLS Adj 。 R-squared: 0.548 
Method: Least Squares F-statistic: 60.52 
Date: Sun, 11 Oct 2015 Prob (F-statistic): 4.75e-10 
Time: 18:14:39 Log-Likelihood: 2.0879 
No. Observations: 50 AIC: -0.1759 
Df Residuals: 48 BIC: 3.648 
Df Model: 1 

coef std err 七 P>|t| [95.0% Conf. Int.] 
const 2.6447 0.305 8.660 0.000 2.031 3.259 
sepal width 0.6909 0.089 7.779 0.000 0.512 0.869 
Omnibus: 0.252 Durbin-Watson: 2.517 
Prob (Omnibus): 0.882 Jarque-Bera (JB): 0.436 
Skew: -0.110 Prob (JB): 0.804 
Kurtosis: 2.599 Cond. No. 34.0 

1-34 


现在 让 我 们 使 用 结束 对 象 来 绘制 回归 线 。 


fig, ax = plt.subplots (figsize=(7,7)) 

ax.plot(x, results.fittedvalues, label='regression line') 
ax.scatter(x, y, label='data point', color='r') 

ax.set ylabel('Sepal Length') 

ax.set xlabel('Sepal Width') 

ax.set title('Setosa Sepal Width vs. Sepal Length', fontsize=14, 
y=1 . 02) 

ax .legend (loc=2) 


前 面 的 代码 生成 图 1-35 所 示 的 输出 。 
通过 绘制 results .fittedvalues， 我 们 可 以 获取 从 模型 所 得 的 回归 线 。 


在 statsmodels 包 中 ， 还 有 一 些 其 他 的 统计 函数 和 测试 模块 ， 我 硕 望 你 能 去 探索 它 
们 。 对 于 Python 中 标准 的 统计 建 模 而 言 ， 这 是 一 个 非常 有 用 的 包 。 接 下 来 ， 让 我 们 开始 学 
习 Python 机 器 学 习 包 中 的 王者 : scikit-learn。 














2. scikit-learn 
scikit-learn 是 一 个 令 人 惊 言 的 Python 库 ， 作 者 们 为 其 设计 了 无 与 伦比 的 文档 ， 为 几 十 


个 算法 提供 了 统一 的 API 接口 。 它 建立 在 Python 科学 栈 的 核心 模块 之 上 ， 也 就 是 NumPy、 
SciPy、pandas 和 matplotlib。scikit-learn 覆盖 的 一 些 领域 包括 : 分 类 、 回 归 、 聚 类 、 降 维 、 
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模型 选择 和 预 处 理 。 


Setosa Sepal Width vs. Sepal Length 


一 一 regression line 
es data point 





1-35 


我 们 来 看 看 几 个 人 例子。 首先， 使 用 iris 数据 建立 一 个 分 类 器 ， 然 后 学 习 如 何 利 用 
scikit-learn 的 工具 来 评估 得 到 的 模型 。 

在 scikit-learn 中 打造 机 右 学 习 模 型 的 第 一 步 ， 是 理解 数据 应 该 如 何 构 建 。 独 立 变 量 应 
该 是 一 个 数字 型 的 nxm 纬 的 矩阵 x、 一 个 因 变 量 y 和 nx1 维 的 同 量 。 该 y 问 量 可 以 是 连续 
的 数字 ， 也 可 以 是 离散 的 数字 ， 还 可 以 是 离散 的 字符 串 类 型 。 然 后 将 这 些 同 量 传 递 到 指定 
分 类 器 的 .fit () 方法。 这 是 使 用 scikit-learn 最 大 的 好 处 , 每 个 分 类 器 都 尽 最 大 可 能 地 使 用 
同样 的 方法 。 如 此 一 来 ， 它 们 的 交换 使 用 易如反掌。 

让 我 们 来 看 看 在 第 一 个 例子 中 ， 如 何 实 现 。 


from sklearn.ensemble import RandomForestClassifier 








from sklearn.cross validation import train test split 


clf = RandomForestClassifier (max depth=5, n estimators=10) 


” 
中 


Qt.IxX[:，:4] 
df .ix[:,4] 


< 
中 
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X train, X test, y train, y _ test = train test split(X, y, 
test size=.3) 


clf.fit(X train,y train) 
YyY_Pred = clf.predict(X test) 


rf = pd.DataFrame (list (zipl(ly pred, y test)), columns=['predicted', 
'actual']) 

rf['correct'] = rf.apply(lambda r: 1 IE r['predicted'] == 
r['actual'] else 0, axis=1) 

rf 


前 面 的 代码 生成 图 1-36 的 输出 。 


| 
earns revwonics + 
1 eseoalmeveseao 
a eonice lvewronioa 


roversoor | reverscor 
| roverscoor [rversicoior| 
oversooor | reverscoor 
Iris-setosa 


1-36 


sescao | 
sescao | 
versieoor 


7 
1 





现在 ， 让 我 们 来 看 看 下 面 的 代码 。 


rf['correct'] .sum() /rf['correct'] .count() 


和 、 0.9555555555555556 
这 会 生成 图 1.37 的 输出 。 


在 前 面 的 几 行 代码 中 ， 我 们 建立 、 训 练 并 测试 了 一 个 分 类 器 ， S00 
它 在 Iris 数据 集 上 具有 95% 的 准确 度 。 这 里 逐 项 分 析 每 个 步 又 。 在 代码 的 前 两 行 ， 我们 做 了 
几 个 导入 ， 前 两 个 是 从 scikit-leam， 值 得 庆幸 的 是 在 import 语句 中 其 名 字 缩 短 为 sklearn 
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了 。 第 一 个 导入 的 是 一 个 随机 和 森林 分 类 右 ， 第 二 个 导入 的 是 一 个 将 数据 分 成 训练 组 和 测试 组 
的 模块 。 出 于 茶 些 原因 ， 这 种 数据 切 分 在 机 器 学 习 应 用 的 构建 中 是 很 关键 的 。 我 们 将 在 以 后 
的 章节 讨论 这 些 ， 现 在 只 需要 知道 这 是 必需 的 。 模 块 train test split 还 会 打 乱 数据 的 
先后 顺序 ， 这 也 是 非常 重要 的 ， 因 为 原 有 的 顺序 可 能 包含 误导 实际 预测 的 信息 。 


在 这 本 书 中 ， 我 们 将 使 用 最 新 的 Python 版本， 撰写 本 
书 的 时 候 是 版 本 3.5。 如 果 你 使 用 的 Python 是 版 本 
2 .x， 你 需要 添加 额外 的 import 语 负 ， 让 整数 的 除法 
和 Python 3.X 中 的 一 样 运作 。 没 有 这 一 行 ， 你 的 准确 
度 将 被 报告 为 0， 而 不 是 95%。 该 行 是 : 


Or future moort ‘LiveLON 

















0 





在 import 语句 之 后 ， 第 一 行 看 上 去 很 奇怪 的 代码 实例 化 了 我 们 的 分 类 问 ， 这 个 例子 中 
古 随 机 和 森林 分 类 如 。 这 里 选择 一 个 使 用 10 个 决策 树 的 森林 ， 而 每 株 树 最 多 允许 五 层 的 判 
定 深度 。 如 此 实施 的 原因 是 为 了 避免 过 拟 合 (overfitting)， 我 们 将 在 后 面 的 章节 中 深入 讨 
论 这 个 话题 。 


接 下 来 的 两 行 创 建 了 X 窍 阵 和 y 回 量 。 初 始 的 iris 数据 框 包 含 四 个 特征 : 花 淤 的 宽 
度 和 长 度 ， 以 及 花 本 的 宽度 和 长 度 。 这 些 特征 被 选中 并 成 为 独立 特征 窍 阵 xXx。 最 后 一 列 ， 
iris 类别 的 名 称 ， 束 成 为 了 因 变 的 7 同 量 。 

然后 这 些 被 传递 到 Le = 二 下 方法 ,该 方法 将 数据 打 乱 并 划分 为 四 个 子 集 ， 
x train，X test，y train 和 y _ test。 参数 test size 被 设置 为 0.3， 这 意味 痢 
数据 集 的 30%% 将 被 分 配给 Xx test 和 y test 部 分 ， 而 其 余 的 将 被 分 配 到 训练 的 部 分 ， 
X Eraln.Tly 计 5 


接 下 来 ， 使 用 训练 数据 来 拟 合 我 们 的 模型 。 一 旦 模型 训练 完毕 ， 再 通过 测试 数据 来 调 
用 分 类 需 的 预 训 方法 。 请 记 住 ， 测 试 数 据 是 分 类 融 没 有 处 理 过 的 数据 。 预 测 的 返回 结束 是 
预 估 标签 的 列表 。 然 后 ， 我 们 创建 对 应 实际 标签 与 预 估 标 签 的 数据 框 。 最 终 ， 我 们 加 和 正 
硝 的 预 负 次 数 ， 并 将 其 除 以 样 例 的 总 数 ， 从 而 看 出 预测 的 准确 率 。 现 在 让 我 们 看 看 哪些 特 
征 提 供 了 最 佳 的 辨别 力 或 者 说 预测 能 


£f importances = clf.feature importances f names = df.columns[:4] 


























ft _ std = np.std([tree.feature importances for tree In 
clf.estimators ], axis=0) 


zz = Zip(f importances, f names，f _ std) 
ZZS = sorted(zz, key=lambda x: x[0], reverse=True) 
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imps = [x[0] for x in zzs] 
labels = [x[l1] for x in zzs] 
errs = [x[2] for x in zzs] 


plt.bar (ange (len(f importances)), imps, color="r", yerr=errs, 
align="center") 
plt.xticks (range (len(f importances)), labels); 


从 图 1-38 可 以 看 出 ， 正 如 我 们 根据 之 前 可 视 化 分 析 所 作出 的 预期 ， 花 为 的 长 度 和 宽度 
对 于 区 分 iris 的 类 别 而 言 ， 具 有 更 好 的 辨别 力 。 不 过 ， 这 些 数 字 完 苋 来 日 哪里 ? 随机 森 
林 有 一 个 名 为 .feature importances 的 方法 ， 它 返回 特征 在 决策 树 中 划分 叶子 节点 的 
相对 能 力 。 如 果 一 个 特征 能 够 将 分 组 一 致 性 地 、 王 净 拆 分 成 不 同 的 类 别 ， 那 么 它 将 具有 很 
高 的 特征 重要 性 。 这 个 数字 的 总 和 将 始终 为 1。 也 许 你 注意 到 ， 在 这 里 我 们 已 经 包括 了 标 
准 雳 ， 它 将 有 助 于 说 明 每 个 特征 有 多 么 的 一 臻 。 这 是 如 此 生成 的 : 对 于 每 个 特征 ， 获 取 每 
10 标 决 策 树 的 特征 重要 性 ， 并 计算 标准 差 。 























1-38 





现在 ， 让 我 们 看 看 另 一 个 使 用 scikit-learn 的 例 于 。 现 在 ， 切 换 分 类 堪 并 使 用 文 持 同 量 
机 (SVM)。 

from sklearn.multiclass import OneVsRestClassifier 

from sklearn.svm import SVC 

from sklearn.cross validation import train test split 

clf = OneVsRestClassifier (SVC (kernel='linear')) 


X = df.ix[:,:4] 
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y = nP.array(dqt.Ix[:,4]) .astype (str) 


X train, X test, y train, y test = train test split(X, y, 
test size=.3) 
clf.fit(X train,y train) 


y_Ppred = clf.predict(X test) 


rf = pd.DataFrame (list (zipl(ly pred, y test)), columns=['predicted', 
'actual']) 

rf['correct'] = rf.apply (lambda r: 1 if r['predicted'] == 
r['actual'] else 0, axis=1) 

rf 


前 面 的 代码 生成 图 1-39 的 输出 。 


| 
OE 
ee ese | 
ree resooos 1 
rvsoor | reversionor | | 
ona roorica [1 | 
roverscocr | reversionor | 
TC 
ET 
re | reversion | | 
ose je 1 
eames rowonica [1 | 
a reversoocr | reversiooor [1 | 
eresoor | reversionor | | 
rons revorica [1 | 
| | 


图 1-39 





现在 ， 让 我 们 执行 下 面 这 行 代码 。 
rf['correct'] .sum()/rf['correct'] .count() 
前 面 的 代码 生成 图 1-40 的 输出 。 
这 里 ， 我 们 将 模型 切换 为 文 持 问 量 机 ， 而 没有 改变 代码 的 图 1-40 
本 质 。 唯 一 的 变化 是 引入 了 SVM 而 不 是 随机 森林 ， 以 及 实例 
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化 分 
林 分 


锅 的 那 一 行 代 码 《〈 标 签 y 需要 一 个 小 小 的 格式 改变 ， 这 是 因为 SVM 无 法 像 随机 条 
咎 那样 ， 将 这 些 标签 解释 为 NumPy 的 字符 串 )。 


这 些 仪 仪 是 scikit-learn 能 力 的 一 小 部 分 ， 但 它 应 该 可 以 说 明 这 个 伟大 的 工具 对 于 机 需 
学 习 应 用 而 言 强大 的 功能 和 力量 。 还 有 许多 其 他 的 机 器 学 习 库 , 我 们 在 这 里 没有 机 会 讨论 ， 
不 过 会 在 后 面 的 章节 中 探讨 ， 这 里 我 强烈 建议 ， 如 果 你 是 第 一 次 使 用 机 器 学 习 库 ， 而 义 想 
要 一 个 强大 的 通用 工具 ，scikit-learn 将 是 你 明智 的 选择 。 
1.2.5 部 轿 

将 一 个 机 右 学 习 模 型 放 入 生产 环境 时 ,， 有 许多 可 用 的 选项 。 它 基本 上 取决 于 应 用 程序 的 性 
质 。 部 署 小 到 在 本 地 机 器 上 运行 cron 作业 ， 大 到 在 Amazon EC2 实例 上 部 闭 全 面 的 实现 。 

这 里 不 会 深入 具体 实施 的 细 方 ， 不 过 全 书 中 我 们 将 有 机 会 研究 不 同 的 部 署 实例 。 


1.3 设置 机 器 学 习 的 环境 


关 
关 























本 章 已 经 介绍 了 一 些 可 以 通过 pip (Python 的 包 管 理 器 ) 单独 安装 的 库 。 不 过 ,我 强烈 
建议 你 安装 预 打 包 的 解决 方案 ， 例 如 Continuum's Anaconda Python 发 行 版 。 这 是 一 个 单一 
的 可 执行 程序 ， 包 含 几乎 所 有 需要 的 软件 包 和 依赖 者 。 而 且 ， 因 为 这 个 发 行 版 是 针对 Python 
科学 栈 的 用 户 ， 它 本 质 上 是 一 个 一 天 永 逸 的 解决 方案 。 

Anaconda 也 包括 软件 包 和 党 理 器 ， 使 得 包 的 更 新 变 得 如 此 人 简单。 


只 需 简 单 地 键入 conda update <package name>, 那么 库 驶 会 被 更 新 到 最 近 的 稳 
定 版 本 。 











1.4 ”小结 


在 本 章 中 ,我 们 介绍 了 数据 科学 /机 右 学 习 的 工作 流程 。 我 们 学 习 了 如 何 让 数据 一 步 步 
地 通过 流水 线 的 每 个 阶段 ， 从 最 初 的 获取 一 直到 最 终 的 部 署 。 本 章 还 涵盖 了 Python 科学 栈 
中 最 重要 的 一 些 功 能 库 及 其 关键 特性 。 


现在 ， 我 们 将 利用 这 方面 的 知识 和 经 验 ， 开 始 创造 独特 的 、 有 价值 的 机 需 学 习 应 用 程 
序 。 在 下 一 重 ， 你 将 看 到 如 何 运用 回归 模型 来 友 现 一 个 便宜 的 公寓 ， 让 我 们 开始 吧 ! 











wNv albbt.com DODODDDDD 





第 2 章 
构建 应 用 程序 ， 友 现 低 价 的 公寓 


在 上 一 章 中 ， 我 们 学 习 了 使 用 数据 的 基本 要 系 。 现 在 ， 我 们 将 运用 这 些 知识 ， 构 建 第 
一 个 机 右 学 习 的 应 用 程序 。 我 们 将 从 一 个 规模 很 小 ， 但 古 非 第 实际 的 例子 开始 :建立 一 个 
应 用 程序 来 识别 定价 较 低 的 公寓 。 

如 果 你 曾经 找 过 公 蜗 ， 你 就 会 明白 这 个 过 程 可 能 是 多 么 令 人 肖 丧 。 它 不 仅 耗 费时 间 ， 
而 且 即 使 当 你 友 现 一 个 自己 吝 欢 的 公 离 ， 你 怎么 知 违 它 就 是 合适 的 公 趣 ? 

你 可 能 在 心里 设 定 了 目标 预算 和 区 域 。 但 是 ， 如 采 你 和 我 是 同一 类 人 ， 那 么 你 也 许愿 
意 做 一 些 权 衡 。 例 如 ， 我 住 在 纽约 市 ， 那 么 靠近 地 铁 站 这 样 的 便利 设施 坚 无 疑问 是 一 个 很 





























进行 交换 ? 步行 到 火车 站 多 少 分 钟 ? 抵 得 过 走 上 楼 标 吗 ? 租房 的 时 候 ， 有 几 十 个 这 样 的 问 
题 需要 考虑 。 那 么 ， 如 何 使 用 机 副 学 习 来 帮助 我 们 进行 决策 呢 ? 


本 章 的 剩余 部 分 会 探索 这 一 扣 。 我 们 不 能 得 到 所 有 问题 的 舍 邓 (和 后 你 会 更 清楚 其 中 
的 原因 ), 不 过 在 本 章 的 结尾 ， 我 们 将 创建 一 个 应 用 程序 ， 使 得 找 公 蜗 这 个 问题 变 得 和 微 简 
单一 点 。 


我 们 将 在 本 章 讨 论 以 下 主题 。 
获取 公寓 的 房 源 数 据 。 

。 检 查 和 准备 数据 。 

e 可 视 化 数据 。 

。 和 构建 回归 模型 。 


。 预 市 。 
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2.1 获取 公寓 房 源 数据 








在 20 世纪 70 年 代 初 ， 如 果 你 想 购买 股票 ， 就 需要 聘请 经 纪 人 ， 他 们 会 收取 你 将 近 1% 
的 固定 佣金 。 如 果 你 想 购 买 一 张 机 票 ， 你 需要 联系 旅行 社 代 理 ， 他 们 将 赚 取 大 约 7% 的 佣金 。 
如 果 你 想 出 售 一 间 房 子 ， 你 会 联系 一 个 房地产 代理 ， 他 们 赚 取 6% 的 佣金 。 在 2016 年 ， 你 
基本 上 可 以 免费 地 做 前 两 者 。 而 对 于 最 后 一 项 ， 情 况 仍 然 和 20 世纪 70 年 代 的 一 样 ， 保 持 
不 变 。 

为 什么 是 这 种 情况 ?更 重要 的 是 ， 这 些 与 机 器 学 习 有 什么 关系 ? 现实 是 ， 这 一 切 都 归 
结 于 数据 ， 以 及 谁 能 够 访问 它 。 

你 可 能 想象 着 通过 API 或 仆 取 房地产 网 站 , 束 能 够 很 容易 地 访问 珍贵 的 地 产房 源 数据 。 
你 错 了 ， 如 果 你 打算 遵守 这 些 网 站 的 条 球 和 条 件 的 话 。 房 地 产 数 据 受 到 房地产 经 纪 人 国家 
协会 (NAR) 的 严格 控制 ， 由 他 们 运行 多 项 房 源 服务 (MLS )。 这 是 一 种 聚合 房 源 数据 的 
服务 ， 只 有 经 纪 人 和 代理 商 可 以 使 用 它 ， 而 且 还 需要 花费 巨 资 。 所 以 ， 可 以 想象 ， 他 们 不 
太 和 希望 任何 人 都 能 大 量 地 下 载 这 些 数据 。 

这 是 不 幸 的 ， 因 为 开放 这 些 数 据 无 疑 会 众生 许多 有 价值 的 消费 者 应 用 程序 。 对 于 占 家 
姓 预 算 最 大 比重 的 购买 决策 而 言 ， 这 点 看 上 去 尤其 重要 。 


话 昌 如 此 ， 也 不 是 完全 没有 希望 。 昌 然 依据 条 款 所 言 ， 直 接 从 MLS 提供 商 获取 数据 是 
被 禁止 的 ， 但 是 我 们 可 以 利用 第 三 方 工 具 来 拉 取 数据 。 

现在 ， 我 们 来 看 一 个 有 用 的 工具 ， 它 可 以 帮助 我 们 获取 所 需 的 数据 。 
使 用 import.io 抓 取 房 源 数据 


有 许多 优秀 的 、 基 于 Python 的 库 用 于 抓 取 网 页 ， 包 括 requests、Beautiful Soup 和 Scrapy。 
我 们 将 探讨 其 中 的 一 些 ， 后 面 的 章节 还 会 讨论 更 多 。 为 了 达到 此 处 的 目的 ， 我 们 将 使 用 免 
费 的 蔡 代 方案 : 

Importio (http://www.import.io) 是 一 个 免费 的 、 基 于 Web 的 服务 ， 它 会 目 动 
抓 取 网 页 。 这 是 一 个 很 好 的 选择 ， 让 我 们 可 以 避免 从 头 开 始 创建 一 个 网 络 朴 虫 。 好 在 ， 写 
为 房地产 的 房 源 数据 提供 了 一 个 示例 API 接口 ， 数 据 来 自 Zillow.com。 


图 2-1 的 图 片 来 日 http://www.import.io/examples。 在 import.io 的 搜索 框 中 
输入 Zillow.com， 检 索 Zillow 数据 的 样 例 。 
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Reddit 
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Life Hacker 
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Enter a URL for a page with data or click on an example below 


Stack Exchange 


v ”图 男声 


- 
5 别 " La 


Dribbble 





他 们 所 提供 的 数据 是 有 关 旧 金山 的 , 不 过 在 我 们 的 例子 中 将 使 用 纽约 。 为 了 更 换 城 市 ， 
需要 使 用 我 们 感 兴趣 的 数据 所 在 的 网 址 ， 来 蔡 换 演示 所 提供 的 网 址 。 


为 了 实现 这 操 ， 我 们 可 以 打开 一 个 蛙 独 的 浏览 费 选 项 卡 ， 
里 执行 一 个 公寓 搜索 。 让 我 们 将 公寓 搜索 限制 在 曼哈顿 地 区 ， 
如 图 2-2 所 示 。 


并 导航 到 Zillow.com。 在 那 
价格 在 $1500 到 $3000 之 间 。 


一 旦 有 结 末 返回 ， 我 们 需要 从 浏览 匿 地址 栏 中 复制 Zillow.com 站 点 的 URL， 并 将 其 烙 


贴 到 之 前 选项 卡 中 importio 的 提取 框 中 。 
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Advertise Sign in Or Join 


SAVE SEARCH 村 V4 le/ (0) 


Special Offer: 10 Hanover Squ... 
® APARTMENTS FOR RENT 
Lease Today & Pay a Reduced .… 
Rent Starting at $3,171+ 

Click or Call (347) 686-8096 = 


Manhattan NY Apartments 


Newest More 

2 Ellwood St 

® APARTMENTS FOR RENT 
2 Ellwood St, New York, NY 
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Updated today 


$1,500+ 
$1,750+ 


603 W 140th St 

® APARTMENTS FOR RENT 
603 W 140th St New York, NY 
2matching units 


Updated today 


$2,100 800 sef 
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复制 图 2-2 中 Zillow.com 地 址 栏 中 的 UREL。 并 将 其 粘贴 到 import.io 的 提取 框 中 ， 如 
图 2-3 所 示 。 
import .io © Give feedback “Help ~ 
EI | cRedo | Download CSV Data view Website view 
图 2-3 
单 击 左上 角 的 提取 数据 (Extract Data) 按钮 , 你 将 看 到 一 个 结果 表 , 只 显示 你 想 要 的 数据 。 
现在 ， 我 们 可 以 通过 单 击 “下 载 CSY”(Download CSV) 按钮 ， 轻 松 地 下 载 这 些 数 据 。 
弹出 的 对 话 框 会 问 我 们 需要 下 载 多 少 页 ， 从 结果 页 可 以 看 出 在 Zillow 的 搜索 返回 了 2640 
条 结果 ， 我 们 需要 下 载 106 页 来 获得 整个 数据 集 。 而 Import.io 仅仅 允许 我 们 下 载 20 页 ， 
现在 也 只 能 如 此 了 。 


2. 2 检查 和 准备 数据 











我 们 现在 有 一 个 包含 500 套 公 帘 的 数据 集 。 来 看 看 其 
使 用 pandas 导入 数据 。 


import pandas as pd 

import re 

import numpy as np 

import matplotlib.pyplot as plt 


plt.style.use('ggplot') 
smatplotlib inline 


30) 
100) 


pd.set option("display.max columns", 
pd.set option("display.max colwidth", 


pd.set option("display.precision", 3) 
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中 有 什么 


。 首 先 在 Jupyter 记事 本 
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# Use the file location of your Import.io csV 
CSV_PATH = r"/Users/alexcombs/Downloads/magic.csv" 


df = pd.read csv(CSV_ PATH) 
df .columns 


上 述 代 人 码 生 成 图 2-4 中 的 输出 。 


Index([u'routablemask link', u'routablemask link/ text', 
u'routablemask link/ title', u'routablemask link numbers', 
u'routablemask content', u'imagebadge value', 
u'imagebadge value numbers', u'routable link', u'routable link/ text', 
u'routable link/ title', u'routable link numbers', u'listingtype value', 


u'pricelarge value', u'pricelarge value prices', u'propertyinfo value', 
u'propertyinfo value numbers', u'fineprint value', 
u'fineprint Value numbers', u'tozcount number', u'tozfresh value', 
u'tablegrouped values', u'tablegrouped values prices', u' PAGE NUMBER'], 
dtype='object"') 





图 2-4 
最 后 一 行 dfcolumns 为 数据 提供 了 列 标题 的 输出 。 此 外 ， 让 我 们 使 用 df .head () .T 碍 


看 数据 的 东 些 样本 。 在 行 结束 处 的 .T 语法 将 转 置 我 们 的 数据 框 并 垂直 地 显示 它 ， 如 疼 2-5 
所 示 。 





3 


http://www.zillow.com/b/2- |http://www.zillow.com/b/603- |http://www.zillow.com/homedetails/9- |http://www.zillow.com/ho! 
本 Ellwood-St-New-York-... W-140th-St-New-Yor... E-129th-St... Riversid... 


_link/ 5 photos 10 photos 9 photos 


i NaN 


3 
芯 
到 
己 
邹 
天 
3 
元 


nk 5 
站 5 photos 10 photos 9 photos 
value 1 

http://www.zillow.com/hol 


Ellwood-St-New-York-... ee Riversid... 


Wn 710 Riverside Dr APT 2C 
os NT Ee 1 b 


710 Riverside Dr APT 2C， 
可 二 Real Estate 


710; 2 


3 [3 
生 | 号 
芯 | 芯 
四 | 
引 | 3 
Ey oo 
天 | 天 
3|3 
x | 
| 


Le 


§ 
芯 
® 
3 
加 
3 
3 
元 
= 
E 
3 
3 
0 


[ee 


6 | 5 |565 |13|I3Is 
§ |3|8 |els|s 
于 ea 瑟 ||| 
[0] @ 忆 8 Ig|3 
RE | 
& | 饼 | 
Eq 分 全 | 兰 |9 
0 上 5 |5 | 三 

| | 

3 

8 

: 


Apartment For Rent 
$3,000/mo 
3000 


全 
一 
~ 
a 
SQ 
3 

oO 


603 W 140th St, New York, 
NY 


1bd*1ba 2 bds .2 ba* 1,016 sqft 


一 人 
。 ~ 
a 
[ew] 


2; 2; 1016 
NaN 


一 


minutes ago hour ago 


NaN 
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我 们 已 经 可 以 看 出 数据 有 一 些 缺 失 值 (NaN)。 需 要 多 个 操作 来 标准 化 此 数据 。 数 据 集 
中 的 列 或 者 说 是 图 2-5 中 转 轩 后 的 行 ) 衣 示 了 每 个 Zillow 房 源 的 单项 数据 。 看 起 来 似乎 
有 两 种 类 型 的 房 源 一 一 一 种 关 型 是 单个 单元 ， 而 万 一 种 类 型 是 多 个 单元 。 


这 两 种 类 型 可 以 在 图 2-6 中 看 到 。 








reine lm mm 
pier va he lm 
posanevuems en le 


popemio emer hh 
we mm hm 
met i 收 
本 


tozreshvaue | _value 


1 Bedrooms 3, 0001.0ba750sgft; 2Bedrooms 3,000 
er 


tablegrouped_values_prices |3000; 3000 





2-6 
这 两 个 房 源 对 应 于 在 Zillow.com 上 所 看 到 的 图 
像 ? 如 图 2-7 所 示 O ag FOR RENT 


203 Rivington St New York, NY 


拆 分 这 些 的 关键 是 listingtype value 这 个 
列 头 。 我 们 将 数据 拆 分 为 单一 的 单元 ，Apartment for 1 Bedrooms 750 saft 
2 Bedrooms 1 -- SAft 

Rent， 以 及 多 个 单元 ，Apartments for Rent: 





py 280 E 2nd St # 604, New York, NY 
®@ APARTMENT FOR RENT 


# multiple units $2,850/mo 


InuU 三 1bd ,1ba 





df[df['listingtype value'] .str.contains('Apartm 
ents For')] 了 


# single units 
= df[df['listingtype value'] .str.contains('Apartment For')] 


现在 来 看 看 每 种 房 源 类 型 的 数量 。 


len (mu) 

上 述 代 人 码 生 成 以 下 输出 。 
161 

len (su) 
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上 述 代 码 生 成 以 下 输出 。 

339 

由 于 大 多 数 房 源 属于 单一 单元 的 类 型 ， 我 们 现在 将 从 此 开始 。 

接 下 来 ， 我 们 需要 将 数据 格 陈 化 为 标准 结构 。 例 如 ， 至 少 需要 为 卧室 数 、 浴 室 数 、 平 
方 天 尺 和 地 址 各 准备 一 列 。 

从 之 前 的 观察 中 可 以 有 发现， 我 们 已 经 有 一 个 清晰 的 价格 列 ， 那 就 是 
pricelarge value prices。 幸 运 的 是 ， 该 列 中 没有 缺失 值 ， 因 此 我 们 不 会 因为 缺少 
数据 而 丢失 任何 的 房 源 。 

卧室 和 浴室 的 数量 以 及 平方 区 矿 将 需要 一 些 解析 ， 因 为 它们 全 都 挤 在 单一 的 列 中 。 让 
我 们 解决 这 个 问题 。 

先 来 看 一 下 该 列 。 

su['propertyinfo value'] 


上 述 代码 生成 如 图 2-8 所 示 的 输出 。 











2 bds »。 1 ba 

1 bdq 。 1 ba 

1 bdq 。 1 ba 

1 bdq 。 1 ba 

Studio 。 1 ba 。 540 sqft 。 2.00 ac lot 。 Built 1961 
2 bds 。 1 ba 

Studio 。 1 ba 

1 bdq 。 1 ba 

Studio 。 1 ba 

Studio 。 1 ba 。 Built 1993 

Studio ba 。 485 sqft 。 Built 1962 
2 bds 。 1 ba ®* 600 saft 

Studio ba 。 522 sqaft 。 Built 2013 
Studio ba 。 480 sqaqft 。 Built 1998 
Studio 。 1 ba 

Studio 。 1 ba 

sqft 。 Built 1900 





2-8 


看 上 去 ， 数 据 似乎 总 是 包括 转 室 和 浴室 的 数量 ， 侦 尔 也 会 包含 例如 年 份 这 样 的 额外 信 
娠 。 在 我 们 继续 解析 之 前 ， 先 来 检验 一 下 这 个 假设 。 


# 检查 没有 包含 'bd' 或 'Studio' 的 行 数 
len(su[~(su['propertyinfo value'] .str.contains('Studio')\ 
|su[l'propertyinfo value'] .str.contains('bd'))]) 


上 述 代码 生成 以 下 输出 。 


0 





wNv albbt.com DODODDDDD 





42 


第 2 章 构 建 应 用 程序 ， 发 现 低 价 的 公寓 


现在 来 看 看 下 面 几 行 代码 。 
# 检 查 没 有 包含 'ba ' 的 行 数 


len(su[~(su['propertyinfo value'] .str.contains('ba'))]) 
上 述 代 人 码 生 成 以 下 输出 。 
6 


看 来 有 几 行 缺少 浴室 数量 的 数据 。 出 现 这 种 情况 的 原因 有 多 种 ， 我 们 可 以 使 用 一 些 广 








法 来 解决 这 个 问题 。 一 种 就 是 填充 或 插 什 这 些 缺 失 的 数据 后 。 





关于 缺失 数据 的 主题 很 可 能 讨论 一 整 章 甚至 是 一 本 书 ， 这 里 我 建议 投入 一 些 时 间 来 理 





解 这 个 读 题 ， 它 是 建 模 过 程 中 一 个 关键 的 组 成 部 分 。 然 而 ， 这 并 非 此 处 讨论 的 主要 目的 ， 
所 以 我 们 将 假设 数据 的 缺失 是 随机 的 ， 即 使 删除 这 些 没 有 浴室 信息 的 房产， 也 不 会 使 得 我 











们 的 样本 产生 不 恰当 的 偏 问 。 


# 选 择 拥 有 浴室 的 房 源 
no baths = su[~(sul[l'propertyinfo value'] .str.contains('ba'))] 


# 再 排除 那些 缺失 了 浴室 信息 的 房 源 


sucln = Su[~su.Index.Isin(no _baths.Index) ] 
现在 我 们 可 以 继续 解析 卧室 和 洽 宇 信息 : 
# 使 用 项 目 符 号 进行 切 分 


def parse Info (ow) : 





if not 'sqft' In row: 
br, ba = row.split('')[:2] 
sqft = np.nan 
else: 
br, ba, sqft = row.split('.')[:3] 
return pd.Series({'Beds': br, 'Baths': ba, 'Sqft': sqft}) 


attr = suclnl['propertyinfo value'] .apply (parse info) 

attr 

上 述 代码 生成 图 2-9 的 输出 。 

这 里 我 们 做 了 些 什么 ? 我 们 在 propertyinfo value 列 上 运行 了 apply 函数 。 然 





后 该 操作 返回 一 个 数据 框 ， 其 中 每 个 公寓 属性 都 会 成 为 单独 的 列 。 在 最 终 完成 之 前 ， 还 有 





几 个 额外 的 步 又。 我 们 需要 在 取 什 中 删除 字符 串 (bd、ba 和 sqft)， 并 且 需 要 将 这 个 新 
的 数据 框 和 原始 的 数据 进行 连接 。 让 我 们 现在 融 这 么 做 吧 。 





QD 这 行 代码 中 ， 作 者 使 用 的 注释 和 变量 名 令 人 困惑 ， 但 是 最 终 效 来 是 一 样 的 。 
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# 在 取 值 中 将 字符 串 删 除 
attr cln = attr.applymap (lambda x: x.strip().split(' ')[0] if 
isinstance (x,str) else np.nan) 


attr cln 


上 述 代 码 生 成 图 2-10 的 输出 。 












Te 
加 Ea 
he hw he le le le fo 
slew laves [room | ef [avao vn 
I | 
he lavee en 
he eves en 
hve ho hn 
me hve fossan 





a oe lvlven 
ro roe los [ven 
ro oe [ewsolven 


图 2-9 图 2-10 


让 我 们 来 看 看 下 面 的 代码 。 


sujnd = sucln.Join(attr cln) 


sujnd.T 
上 述 代码 生成 图 2-11 的 输出 。 


到 了 这 个 时 刻 ， 各 方面 的 数据 集 开 始 聚 集 在 一 起 了 。 我 们 可 以 基于 卧室 的 数量 、 浴 宣 的 
数量 和 面积 的 平方 区 乒 数 ， 来 测试 关于 公寓 价值 的 假设 。 但 是 ， 正 如 行业 专家 所 说 ， 房 地 产 
的 区 域 最 为 关键 。 让 我 们 采取 和 之 前 相同 的 属性 解析 方法 ， 并 将 其 应 用 到 公寓 的 地 址 上 。 

如 果 可 能 ， 我 们 还 将 尝试 提取 楼 层 的 信息 。 这 里 我 们 假设 一 个 模式 ， 其 中 一 个 数字 后 
面 跟随 一 个 字母 ， 而 该 数字 就 表示 建筑 物 的 楼 层 。 

# parse out zip, floor 

def parse addy (r): 

so zip = re.search(', NY(\d+)', zr) 
so _ flr = re.search(' (?:APT|#) \s+(\d+) [A-2Z]+,', r) 
If so zip: 
Zipc = so zip.group (1) 
else: 


ww ai bbt.com DODODDDDOD 





44 第 2 章 构建 应 用 程序 ， 发 现 低 价 的 公寓 


ZIPC = np.nan 
if so flr: 
flr = so flr.group(1) 
else: 
flr = np.nan 
return pd.Series({'Zip':zZipc, ‘Floor': flr}) 


flrzip = sujnd['routable link/ text'] .apply (parse addy) 


suf = sujnd.Jjoin (flrzip) 


http://www.zillow.com/homedetails/9- |http://www.zillow.com/homedetails/710- |http://www.zillow.com/homedetails/413- 
routablemask_link E-129th-St-1-New-York-NY- Riverside-Dr-APT-2C-New-York-NY- E-84th-St-APT-8-New-York-NY- 
10035/2100761096_zpid/ 10031/124451755_zpid/ 10028/2100761260_zpid/ 


routablemask_link/_text NN | 9 photos 5 photos 
9 photos 5 photos 


http://www.zillow.com/homedetails/413- 
Riverside-Dr-APT-2C-New-York-NY- E-84th-St-APT-8-New-York-NY- 
10031/124451755_zpid/ 10028/2100761260_zpid/ 


710 Riverside Dr APT 2C, New York, 413 E 84th St APT 8, New York, 
9 E 129th St #1, New York, NY10035 NY10031 NY10028 
9 E 129th St #1, New York, NY Real |710 Riverside Dr APT 2C, New York, NY |413 E 84th St APT 8, New York, NY Real 
Estate Real Estate Estate 


9; 129; 1 710; 2 413; 84; 8 


Cr 


tozcount_number 





图 2-11 
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上 述 代码 生成 图 2-12 的 输出 。 


http://www.zillow.com/homedetails/9- |http://www.zillow.com/homedetails/710- |http://www.zillow.com/homedetails/413- 
routablemask_link E-129th-St-1-New-York-NY- Riverside-Dr-APT-2C-New-York-NY- E-84th-St-APT-8-New-York-NY- 
10035/2100761096_zpid/ 10031/124451755_zpid/ 10028/2100761260_zpid/ 


meme imen en lm lm 
oieomost nite en mh 由 
oirost neni en hh 
um en Nh 
aaa len lm lp 
maosaoevwuenme hh hh 


http://www.zillow.com/homedetails/9- |http://www.zillow.com/homedetails/710- |http://www.zillow.com/homedetails/413- 
routable_link E-129th-St-1-New-York-NY- Riverside-Dr-APT-2C-New-York-NY- E-84th-St-APT-8-New-York-NY- 
10035/2100761096_zpid/ 10031/124451755_zpid/ 10028/2100761260_zpid/ 


710 Riverside Dr APT 2C, New York 413 E 84th St APT 8, New York 
i 129th St # 1 ， York, NY1 ’ ' 
routable link/ text 9 E 129th St New York, NY10035 NY10031 NY10028 
。 9E 129th St#1, New York, NY Real |710 Riverside Dr APT 2C, New York, NY |413 E 84th St APT 8, New York, NY Real 
routable_ link/_title 
Estate Real Estate Estate 


pooroo vane pies 7150 lm i 


propertyinfo_value 1bd*1ba 2 bds* 2 ba* 1,016 sqft Studio* 1 ba 


finepintvalte NR 
fineprintvale numbers IN Re 
toomtnmber PP 
tablegroupedvalues Ny Re 
tablegroupedvaluesprices NN 
一 





4 2-12 


正如 你 所 看 到 的 ， 当 楼 层 和 邮编 信息 出 现 的 时 候 ， 我 们 能 够 成 功 地 解析 出 它们 。 这 
使 我 们 从 333 个 房 源 中 获得 了 320 个 市 有 邮政 编码 信息 的 房 源 和 164 个 带 有 楼 层 信息 的 
房 源 。 


最 终 进行 一 点 清理 ， 然 后 我 们 即将 开始 检查 这 个 数据 集 。 


# 我 们 将 数据 减少 为 所 感 兴 趣 的 那些 列 
sudf = suf[['pricelarge value prices', 'Beds', 'Baths', 'Sqft', 'Floor', 


'Zip']] 


ww ai bbt.com DODODDDDD 





46 第 2 章 构建 应 用 程序 ， 发 现 低 价 的 公寓 
# 我 们 还 会 清理 奇怪 的 列 名 ， 并 重 置 索引 
sudf .zename (columns={'pricelarge value prices':'Rent'}, inplace=True) 
sudf.reset index (drop=True, inplace=True) 


sudf 


上 述 代码 生成 图 2-13 的 输出 。 


TT 
olsoh fan [un hooss 
ole oele rover 


王 | 亚 





2.2.1 分 析 数 据 


到 了 这 个 阶段 ， 数 据 已 经 是 我 们 分 析 时 所 需要 的 格式 了 。 让 我 们 从 一 些 总 体 的 统计 数 
据 分 析 开 始 。 

sudft .aqescLzibe() 

上 述 代码 生成 图 2-14 的 输出 。 

这 里 可 以 看 到 租金 的 统计 细 分 。 不 要 未 记 我 们 从 Zillow 的 原始 数据 中 ， 只 选择 了 每 月 
价格 在 1500 到 3000 美元 之 间 的 公寓 。 在 这 里 无 法 看 到 的 是 卧室 和 浴室 的 平均 数量 ， 或 者 
楼 层 的 平均 数 。 导 致 这 个 现象 的 问题 有 两 个 。 第 一 个 问题 涉及 卧室 。 我 们 需要 所 有 的 数据 
都 为 数值 型 才能 获得 统计 。 可 以 将 工作 室 公 寓 认 定 为 一 个 零 卧 室 的 公寓 《实际 也 确实 如 此 )， 
来 解决 这 个 问题 。 


# 我 们 将 出 现 的 'Studio' 替 换 为 0 
sudf.loc[:,'Beds'] = sudf['Beds'] .map (lambda x: 0 if 'Studio' in x else x) 











sudf 
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上 述 代 码 生 成 图 2-15 的 输出 。 









RN 
I 
Te | 可 于 Eee je 
esoo lo [vn vn loos 
pam enon ea760 | a_ asoo la wwe om 
86882478 | Ep 直 和 
es 


2200.000000 
2525.000000 


2800.000000 
最 大 值 |3000.000000 


图 2-14 图 2-15 





这 解决 了 第 一 | 问题 ， 但 我 们 还 有 另 一 个 问 olass ‘pandas.core.frame.DataFrame'"> 
ee Int6d4Index: 333 entries, 0 to 332 
题 。 任何 需要 统计 数据 的 列 必 即 页 是 数值 类 型 。 正如 Data columns (total 6 columns): 

Rent 333 non=null floaté6a 
你 在 图 2-10 的 截图 所 见 ， 情况 并 非 如 此 。 Beds 333 non=null object 
Baths 333 non=null] object 
sudf .info () S 可 芋 七 108 neon-null object 
Floor l64 non=null object 
a 、 人 21E 320 non=null object 
上 述 代码 生成 图 2-16 的 输出 。 re float64(1), i 





memory Usage: 18.2+ KB 


我 们 可 以 通过 更 改 数 据 类 型 来 解决 这 个 问题 ， 
如 下 面 的 代码 所 示 。 
# 让 我 们 解决 列 中 数据 类 型 的 问题 
sudf.loc[:,'Rent'] = sudf['Rent'] .astype (int) 
sudf.loc[:,'Beds'] = sudf['Beds'] .astype (int) 


2-16 


# 存在 半 间 浴室 的 情况 ， 因 此 需要 浮 点 
sudf.loc[:,'Baths'] = sudfl[' RE 


# 存 在 NaNs， 需 要 浮 点 型 ， 但 是 首先 要 将 喜 号 替换 掉 
sudf.loc[:,'Sqft'] = sudf['Sqft'] .str.replace(',','') 


sudf.loc[:,'Sqft'] = sudf['Sqft'] .astype (float) 
sudf.loc[:,'Floor'] = sudf['Floor'] .astype (float) 


让 我 们 执行 下 面 的 这 行 代 码 并 看 看 结果 如 何 。 
sudf .Info () 


上 述 代 码 生 成 图 2-17 的 输出 。 
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让 我 们 执行 下 面 的 代码 行 ， 以 便 得 到 最 终 的 统计 数据 。 
sudft .qdqescLziIbe() 


上 述 代码 生成 图 2-18 的 输出 。 





Intéa4Index: 333 entries, 0 to 332 
Data columns (total 6 columns): 


lass ‘pandas..core. frame. DataFrame'> mean 


Rent 333 man-null int64 oo00 |1.00 280.00 
卫 旬 如 333 neon=null intéd 

Baths 333 non-null float64 25% |2200.00 ooo |1.00 | 447 .50 2.00 | 
喇 可 下 七 108 non=null 在 】 避 可 七 看 总 50% |1 00 1 .00 512 .00 
0 50% |2525.00|1.00 |100 |51200 |4.00 | 
ip 320 non-null object 75% |2800.00 100 |1.00 | 600.00 
dtypes: float64t3), int64(2), object(1) 

i max |3000.00|3.00 |2.00 |1090.00 |1107.00 


2-17 图 2-18 


租金 、 卧 室 、 洽 室 和 平方 贡 扩 的 数字 都 看 起 来 不 错 ， 但 是 Floor 楼 层 这 一 列 似乎 有 些 
问题 。 在 纽约 ， 确 实 有 很 多 非常 蜗 的 建筑 ， 但 我 想 没 有 超过 1000 层 的。 

快速 看 过 数据 之 后 ， 你 会 发 现 APT 1107A 给 了 我 们 这 个 结果 。 很 可 能 ， 这 是 一 个 11 
层 的 公寓 ， 但 是 为 了 安全 性 以 及 一 致 性 ， 我 们 会 放 径 这 个 房 源 。 笠 运 的 是 ， 这 是 唯一 超出 
30 楼 的 房 源 ， 所 以 我 们 的 数据 仍然 是 完好 的 状态 。 


# 索 引 标 号 318 是 有 问题 的 房产 ， 这 里 放弃 它 
sudf = sudf.drop([318]) 














mean 


sudf .describe () std 

上 述 代 码 生 成 图 2-19 的 输出 。 ES 

我 们 的 数据 现在 看 起 来 不 错 ， 接 下 来 继续 分 析 的 “| |so% |2s27soj100 |100 |s12.00 |4o0 _ 
步骤。 让 我 们 生成 数据 的 透视 图 ， 首先 通过 邮政 编码 区 
和 卧室 数量 来 检视 价格 的 情况 。Pandas 有 一 人 
个 .pivot table () 图 数 ， 使 这 个 操作 变 得 很 容易 。 2-19 

sudf .pivot table('Rent', 'Zip', 'Beds', aggfunc='mean') 

上 述 代 码 生 成 图 2-20 的 输出 。 

此 操作 可 让 我 们 按照 邮政 编码 来 全 看 平均 价格 。 正 如 你 所 见 ， 随 看 房间 数量 的 增加 ， 
我 们 将 看 到 越 来 越 少 的 房 源 ，NaN 值 就 是 很 好 的 证 明 。 为 了 进一步 探究 其 原因 ， 我 们 可 以 
基于 房 源 的 数量 进行 透视 。 
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sudf .pivot table('Rent', 'Zip', 'Beds', aggfunc='count') 


上 述 代 码 生成 图 2-21 的 输出 。 


Casao 10 |20 jao | 
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10001 |2 JNaN [NaN NaN 
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2-20 图 2-21 


从 图 2-21 可 以 看 出 ， 根 据 邮 政 编码 和 卧室 数量 的 维度 来 分 机 ， 我 们 的 数据 是 牧 蔚 的 。 
这 是 不 位 的 ， 理 想 情 况 下 ， 我 们 应 该 需要 更 多 的 数据 。 尽 管 如 此 ， 我 们 仍然 可 以 进行 分 析 。 


现在 要 通过 可 视 化 的 方式 来 检视 手头 的 数据 。 
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2.2.2 可 人 视 化 数据 


由 于 目前 的 数据 是 基于 邮政 编码 的 ， 因 此 最 好 的 可 视 化 方法 是 使 用 热 图 ”。 如 果 你 不 熟悉 
热 图 ， 那 么 简单 地 来 理解 它 只 是 按照 色谱 来 表示 数据 的 可 视 化 。 现 在 ， 让 我 们 使 用 名 为 fo01ium 
的 Python 映 嘎 库 来 实 现 这 站 局 
(ttOS /7OLtHiUB .CoOn/ /eyehonyistualizatieonyrioLiur 

由 于 缺少 包含 两 到 三 间 卧 室 的 公寓 ， 让 我 们 纵 减 数据 集 ， 聚 焦 到 工作 室 和 一 间 卧 室 的 房 源 。 

su lt two = sudf[sudf['Beds']<2] 

现在 我 们 将 继续 创建 可 视 化 。 


import folium 











map = folium.Map (location=[40.748817, -73.985428], zoom start=13) 
map.geo json(geo path=r'/Users/alexcombs/Downloads/nyc.json', 
data=su lt two, 
columns=['Zip', 'Rent'], 

key_on='feature.properties .postalCode', 

threshold scale=[1700.00, 1900.00, 2100.00, 2300.00, 2500.00, 

2750.00] ， 

£ill color='Y1lOrRd', fill opacity=0.7, line opacity=0.2, 
legend name='Rent (%$)', 
reset=True) 


map.create map (path='nyc.html') 

上 述 代码 生成 图 2-22 的 输出 。 

这 里 及 生 了 很 多 事情 ， 所 以 让 我 们 一 步 一 步 来 分 机 。 导 入 folium 后 ， 我 们 创建 了 一 
个 .Map () 对象。 为 了 使 地 图 后 中 ， 还 需要 传 入 坐标 和 纵 放 级 别 。 我 在 Google 上 搜索 了 帝国 大 
厦 的 坐标 〈 你 需要 使 用 经 度 的 正 负 符 号 )， 并 调整 缩放 ， 使 项 国 大 厦 出 现在 我 想 要 居中 的 地 方 。 

下 一 行 代 码 需要 一 个 称 为 GeoJSON 文件 的 东西 。 这 是 一 个 表示 地 理 属 性 的 开放 格式 
来 。 通 过 搜索 NYC GeoJSON 文件 ， 我 找到 了 一 个 ， 特 别 是 它 还 包含 了 邮政 编码 的 映射 。 
一 旦 传 入 了 GeoJSON 文件 与 邮政 编码 之 后 ， 你 还 需要 传 入 数据 框 。 

然后 你 需要 引用 键 列 〈 在 这 个 例子 中 为 zip〉 以 及 你 希望 用 于 热 图 的 列 。 在 我 们 的 例 
子 中 将 使 用 租金 的 中 位 数 。 其 他 选项 用 于 确定 颜色 的 调 色 板 、 颜 色 改 变 的 取 值 以 及 茶 些 用 
































(D 译 者 注 : 热 图 可 以 帮助 显示 基于 地 理 位 置 的 信息 ， 所 以 适合 邮编 相关 的 分 析 。 
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2.3 对 数据 建 模 51 
于 调整 图 例 和 着 色 的 其 他 参数 。 最 后 一 行 代码 确定 了 输出 文件 的 名 称 。 


上 New York ; 


1,700 1,9002,1002,3002,500 2,750 
+ 





”| Rent(%) 
疡 了 ee 


如 果 你 在 本 地 机 器 上 使 用 这 些 代 码 ， 你 可 能 会 在 
Chrome 浏览 器 中 遇 到 一 个 问题 。 阴 影 部 分 似乎 不 正 
常 。Chrome 认为 其 是 跨 域 请 求 ， 因 此 拒绝 执行 它 ， 
而 且 由 于 此 ， 你 将 无 法 看 到 热 图 的 党 加 部 分 。、Internet 
Explorer 和 Safari 浏览 器 应 该 可 以 正常 显示 。 





随 着 热 图 完成 , 我 们 可 以 感受 到 哪些 地 区 有 更 局 的 或 更 低 的 租金 。 如 条 你 租房 的 时 候 关 注 
东 个 特定 的 区 域 ， 这 将 很 有 帮助 。 不 过 ， 让 我 们 继续 使 用 回归 建 模 ， 进 行 更 为 深入 的 分 析 。 


2. 3 对 数据 建 模 





让 我 们 开始 使 用 一 个 和 两 个 卧室 的 数据 集 。 我 们 将 观察 邮政 编码 和 卧室 数量 对 于 出 租价 
格 的 影响 。 这 里 将 使 用 两 个 包 : 第 一 个 是 statsmode1ls， 我 们 在 前 一 章 简 要 讨论 过 ， 而 第 二 
个 他 Datsy7 (https//patey,readthedoos.org/en/latest/index.html) 和 
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statsmodels 搭档 使 用 ,使 工作 更 轻松 。 在 运行 回归 的 时 候 ，Patsy 让 我 们 可 以 使 用 R 风 
格 的 公 邢 。 


让 我 们 现在 开始 吧 。 


import patsy 
import statsmodels.api as sm 


f = 'Rent ~ Zip + Beds' 
y, X = patsy.dmatrices(f, su lt two, return type='dataframe') 


results = sm.OLS(y, X) .fit() 
print (results.summary () ) 


上 述 代 人 码 生成 图 2-23 的 输出 。 


OLS Regression Results 


Dep. Variable: R-squared: 

Model: Adj. R-squared: 
Method: Least Squares F-statistic: 

Date: Sat, 31 Oct 2015 Prob (F-statistic) 
Time: 13:44:15 Log-Likelihood: 
No. Observations: 

Df Residuals: 

Df Model: 


[95.0% Conf. Int.] 


Intercept 

Zip[T.10002] 
Zip[T.10003] 
Zip[T.10004] 
Zip[T.10005] 
Zip[T.10006] 
Zip[T.10009] 
Zip[T.10010] 
Zip[T.10011] 
Zip[T.10012] 
Zip[T.10013] 
Zip[T.10014] 
Zip[T.10016] 
Zip[T.10017] 
Zip[T.10019] 
Zip[T.10021] 
Zip[T.10022] 
Zip[T.10023] 
Zip[T.10024] 
Zip[T.10025] 
Zip[T.10026] 
Zip[T.10027] 
Zip[T.10028] 
Zip[T.10029] 
Zip[T.10033] 
Zip[T.10035] 
Zip[T.10036] 
Zip[T.10037] 
Zip[T.10038] 
Zip[T.10040] 
Zip[T.10065] 
Zip[T.10075] 
Zip[T.10280] 
Zip[T.11229] 


Omnibus: Durbin-Watson: 
Prob (Omnibus): 。 Jardue-Bera (JB): 
Skew: 。 Prob(JB) : 
Kurtosis: 





人 4 2-23 
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2.3 对 数据 建 模 53 
通过 这 几 行 代码 ， 我 们 刚刚 运行 了 第 一 个 机 器 学 习 算 法 。 
虽然 大 多 数 人 不 倾向 于 将 线性 回归 视 为 机 器 学 习 , 但 
它 实 际 上 就 是 机 器 学 习 。 线 性 回归 是 一 种 监督 式 的 机 
器 学 习 。 在 这 种 情况 下 ， 监 督 只 是 意味 着 我 们 为 训练 
集 提供 了 输出 值 ”， 








现在 , 让 我 们 解释 这 其 中 友 生 的 事情 ,在 引入 包 之 后 , 有 两 行 和 patsy 模块 相关 的 代码 。 
第 一 行 是 我 们 将 要 使 用 的 公式 。 在 左手 边 ( 波 浪 写 之 前 ) 是 反应 或 因 变 量 ， 也 就 是 Rent。 
在 右手 边 ， 是 独立 或 预测 变量 ， 就 是 Zip 和 Beds。 这 个 公式 表示 ， 我 们 想 知道 邮政 编码 
和 卧室 数量 将 如 何 影 啊 出 租价 格 。 


然后 我 们 的 公 陈 将 和 包含 相应 列 名 的 数据 框 一 起 ,传递 给 Patsy.dmatrices () 。 然 
后 设置 Patsy， 让 和 它 返 回 一 个 数据 框 ， 其 中 和 X 惩 阵 由 预测 变量 组 成 , 而 y 问 量 由 啊 应 变量 组 
成 。 这 些 将 被 传递 给 sm.0LS () ， 之 后 调用 .fit () 来 运行 我 们 的 模型 。 最 后 ， 打 印 出 模 
型 的 结 末 。 


如 你 所 见 ， 输 出 的 结果 提供 了 大 量 的 信息 。 让 我 们 从 最 上 面 的 部 分 开始 吧 。 可 以 看 到 
模型 包括 了 262 个 观察 样本 ， 调 整 后 的 R2 为 0.283，F-statistic 为 1.21e-10, 具 
有 统计 的 显 着 性 。 这 里 显 音 性 是 指 什么 ? 它 意 味 着 我 们 所 创建 的 模型 ， 仅 仅 使 用 卧室 数量 
和 邮政 编码 ， 就 已 经 能 够 解释 约 三 分 之 一 的 价格 差异 。 这 是 一 个 满意 的 结果 吗 ? 为 了 更 好 
地 回答 这 个 问题 ， 让 我 们 来 看 看 输出 的 中 间 部 分 。 

中 间 部 分 为 我 们 提供 了 模型 中 每 个 自 变 量 的 有 关 人 信息。 从 左 到 右 ， 我 们 可 以 看 到 以 下 
信息 : 变量 、 变 量 在 模型 中 的 系数 、 标 准 误差 、1 统计 量 、t 统 计量 的 p 值 ， 以 及 95% 的 置 
信和 区 间 

这 一 切 告 诉 我 们 什么 ”如果 看 p 值 这 一 列 ， 我 们 可 以 确定 独立 变量 从 统计 的 角度 来 看 
是 否 具 有 意义 。 在 回归 模型 中 具有 统计 学 意义 ， 这 意味 着 一 个 独立 变量 和 响应 变量 之 间 的 
关系 不 太 可 能 是 偶然 发 生 的 。 通 第 ， 统 计 学 家 使 用 0.05 的 p 值 来 确定 这 一 点 。 一 个 0.05 
的 p 值 意 味 着 我 们 看 到 的 结果 只 有 $% 的 可 能 性 是 偶然 发 生 的 。 就 这 里 的 输出 而 言 ， 卧 室 的 
数量 显然 是 有 意义 的 。 那 邮政 编码 怎么 样 呢 ? 


首先 要 注意 的 是 ， 我 们 的 截 距 代 表 了 10001 的 邮政 编码 。 建 立 线性 回归 模型 的 时 候 ， 
是 圾 要 截 距 的 。 截 距 就 是 回归 线 和 y 轴 交叉 的 地 方 。Statsmodels 会 目 动 选择 一 个 预测 变 





















































QD 译 者 注 : 或 者 说 是 目标 值 。 
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量 作 为 截 距 。 在 这 里 ， 它 决定 使 用 纽约 的 切尔西 地 区 (10001) >。 

就 像 卧 室 的 数量 ， 截 距 在 统计 上 是 显 着 的 。 但 是 ， 其 他 邮政 编码 又 怎么 样 呢 ? 

在 大 多 数 情况 下 , 它们 并 不 显著 。 不 过 ， 让 我 们 来 看 看 显著 的 几 个 。 邮 政 编 码 一 -10027、 
10029 和 10035 一 一 都 是 非 癌 显著 的 ， 并 且 都 具有 很 高 的 负 置 信 区 间 。 这 告诉 我 们 ， 和 切 
尔 西 地 区 一 个 类 似 的 公寓 相 比 ， 这 些 地 区 往往 会 有 较 低 的 租金 价格 。 


因为 切尔西 被 认为 是 纽约 的 一 个 时 尚之 地 , 而 另 三 个 街区 都 在 哈 林 区 “及 其 附近 一 它 
们 当然 不 会 被 认为 是 时 尚 的 地 方 一 一 模型 与 我 们 对 真实 世界 的 直觉 ， 是 相 吻 合 的 。 

现在 让 我 们 使 用 这 个 模型 进行 一 些 预测 。 
2.3.1 预测 

假设 根据 前 面 的 分 析 , 我 们 对 三 个 特定 的 邮政 编码 感 兴趣 : 10002、10003 和 10009。 
我 们 应 该 如 何 使 用 已 有 的 模型 ， 来 确定 为 某 个 公寓 支付 多 少 钱 呢 ? 下 面 来 看 看 吧 。 

首先 ， 需 要 理解 模型 的 输入 是 什么 样子 ， 这 样 我 们 才 知 道 如 何 输入 一 组 新 的 值 。 让 我 
们 来 看 看 x 矩阵 。 


























X.head () 


上 述 代码 生成 图 2-24 的 输出 。 





我 们 可 以 看 到 ， 输 入 是 用 所 谓 的 虚拟 变量 进行 编码 的 。 由 于 邮政 编码 不 是 数字 的 ， 所 
以 为 了 表示 这 个 特征 ， 系 统 使 用 了 虚拟 编码 。 如 果 某 个 公寓 在 10003 中 ， 那 么 该 列 将 被 编 
码 为 1， 而 所 有 其 他 邮政 编码 都 被 编码 为 0。 而 卧室 是 数值 型 的 ， 所 以 系统 将 根据 实际 的 
数字 对 其 进行 编码 。 现 在 ， 让 我 们 创建 自己 的 输入 行进 行 预 测 。 

to pred idx = X.iloc [0] .index 

to pred zeros = np.zeros (len (to pred idx )) 


只 译 者 注 : 位 于 美国 纽约 曼哈顿 的 切尔西 区 域 ， 以 画廊 、 音 乐 、 文 学 等 各 类 艺术 而 闻名 。 
书 译 者 注 : 纽约 的 黑人 区 。 
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tpdf =pd.DataFrame (to pred _ zeros，index= to pred idx，columns= ['value']) 


tpdf 

上 述 代 码 生 成 图 2-25 的 输出 。 

我 们 刚刚 使 用 了 XxX 和 矩阵 的 索引 ， 并 用 零 填充 数据 。 现 在 让 我 们 填 入 一 些 实际 的 值 。 我 
们 要 对 一 个 位 于 10009 区 域 的 、 包 含 一 间 卧 室 的 公寓 进行 估价 。 


tpdf.loc['Intercept'] = 1 
tpdf.loc['Beds'] = 1 
tpdf.loc['Zip[T.10009]'] = 1 


tpdf 





[对 干线 性 回归 ， 窒 距 值 必须 设置 为 1， 模型 才能 返回 
:小 ”正确 的 统计 值 . 


上 述 代码 生成 图 2-26 的 输出 。 





Aaronalo 
warrtoora |o 
worto0 go 
rariooa |o 
amtoom|o 

























邮编 [T.10010] 
邮编 [T.1001 习 
邮编 上 T.10013] 





图 2-25 图 2-26 
这 里 我 们 可 以 看 到 截 距 和 10009 邮政 编码 已 经 被 设置 为 1 了 。 
在 图 2-27 中 ， 我 们 可 以 看 到 卧室 的 数量 也 已 经 被 设置 为 1 了 。 
我 们 已 经 将 特征 设置 为 了 适当 的 值 ， 现 在 使 用 该 模型 返回 一 个 预测 。 
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results .predict (tpdf['value']) 

上 述 代码 生成 如 下 输出 。 

2529.5604669841355 

请 记 住 ，results 是 我 们 保存 模型 的 变量 名 。 这 个 模型 对 象 有 一 个 .predict () 方法 ， 
我 们 使 用 自己 的 输入 值 调 用 该 方法 。 正 如 你 可 以 看 到 的 ， 模 型 返回 了 预测 的 值 。 

如 果 我 们 想 要 在 条 件 中 增加 一 间 卧 室 怎么 办 ? 

来 改变 一 下 输入 并 看 看 结果 。 

tpdf['value'] = 0 

tpdf.loc['Intercept'] = 1 


tpdf.loc['Beds'] = 2 
tpdf.loc['Zip[T.10009]'] = 1 


tpdf 


上 述 代 码 生 成 了 图 2-28 的 输出 。 


邮编 [T.10037] A 


邮编 [T.10038] 
邮编 [T,.10040] 





邮编 [T.10065] P| 





2-27 图 2-28 
我 们 可 以 看 到 卧室 数量 已 经 被 更 新 为 2。 
现在 ， 我 们 将 再 次 运行 预测 。 
results.predict (tpdf['value']) 
上 述 代码 生成 以 下 输出 。 
2738.035104645339 


看 起 来 ， 额 外 增加 的 卧室 每 个 月 将 花费 我 们 大 约 200 美元 。 如 果 我 们 选择 10002 地 区 
呢 ? 让 我 们 在 代码 中 实现 这 个 。 
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tpdf['value'] = 0 
tpdf.loc['Intercept'] = 1 
tpdf.loc['Beds'] = 2 
tpdf.loc['Zip[T.10002]'] = 1 


results.predict (tpdf['value']) 

上 述 代码 生成 以 下 输出 。 

2651.1763504369078 

根据 我 们 的 模型 ， 如 果 选 择 10002 而 不 是 10009 地 区 ， 我 们 可 以 在 两 卧室 的 公寓 上 
少 北 一 些 馈 。 


2.3.2 扩展 模型 


到 了 目前 这 个 阶段 ， 我 们 只 检视 了 邮政 编码 、 卧 室 和 出 租价 格 之 间 的 关系 。 虽 然 这 个 
模型 有 一 定 的 解释 能 力 ， 但 是 ， 我 们 的 数据 集 太 小 ， 使 用 的 特征 也 太 少 ， 无 法 充分 地 观测 
房地产 佑 值 这 个 复杂 的 市 场 。 

然而 ， 科 运 的 是 ， 我 们 即将 回访 模型 添加 更 多 的 数据 和 特征 ， 而 且 可 以 使 用 完全 相同 
的 框架 来 扩展 我 们 的 分 析 。 

未 来 可 扩展 的 探索 包括 利用 Foursquare 或 Yelp API 所 提供 的 餐馆 和 酒吧 数据 ， 或 者 是 
Walk Score 这 类 供应 商 所 提供 的 可 步行 性 和 交通 便利 性 指标 。 

要 扩展 这 个 模型 有 很 多 的 方法 , 我 建议 你 在 一 个 方 回 上 持续 努力 , 例如 探 过 各 种 指标 。 
随 看 每 天 更 多 的 数据 被 发 布 ， 你 的 模型 会 不 断 地 改善 。 

















2.4 小 结 





在 本 章 中 ， 你 学 习 了 如 何 获取 房地产 列表 上 的 数据 ， 利 用 pandas 的 功能 来 操作 和 清理 
数据 ， 通 过 热 图 来 可 视 化 地 检视 数据 ， 节 后 ， 构 建 并 使 用 回归 模型 来 为 公寓 估价 。 


目前 为 止 ， 我 们 只 是 刚刚 接触 了 机 右 学 习 的 表层 。 在 下 面 的 革 节 中 ， 我 们 会 继续 探索 
不 同 的 算法 和 应 用 。 


F 一 章 将 探讨 如 何 使 用 聚 类 算法 寻找 极其 稀有 的 、 折 扣 力度 非常 之 大 的 机 票 。 
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让 我 们 谈 谈 错 误 。 它 们 是 生活 的 一 部 分 ， 每 个 人 都 会 犯错 一 一 即使 是 航空 公司 也 如 此 。 

在 2014 年 的 某 个 下 午 ， 我 正在 阅读 Twitter 上 的 订阅 消息 ， 而 我 所 关注 的 其 中 一 个 账 
号 是 美国 一 家 主要 的 航空 公司 ， 它 们 所 提供 的 到 欧洲 的 机 票 价格 明显 低 于 正常 值 。 当 时 ， 
从 纽约 到 维也纳 最 便宜 的 票 价 也 要 大 约 800 美元 。 然 而 ， 该 航空 公司 在 某 些 日 期 的 推广 票 
价 介 于 350 美元 到 450 美元 之 间 。 这 似乎 好 得 让 人 难以 置信 ， 不 过 确 有 可 能 是 真 的 。 我 侦 
然 发 现 了 行业 所 说 的 错误 票 价 。 

在 旅行 老手 和 里 程 贩子 的 超级 秘密 社会 里 ， 这 是 众所周知 的 ， 航 空 公司 偶尔 
意外 地 一 一 贴 出 不 包括 燃料 附加 费 的 票 价 。 

值得 注意 的 是 ， 这 不 是 他 们 所 犯 的 唯一 一 类 错误 。 你 可 能 会 期 望 先进 的 算法 为 每 个 航 
班 更 新 票 价 ， 它 会 考虑 到 大 量 的 因素 而 不 至 于 犯错 。 在 大 多 数 情况 下 ， 你 是 对 的 。 但 是 ， 
由 于 遗留 系统 的 存在 ， 以 及 处 理 多 个 飞行 运营 商 和 管辖 区 域 的 复杂 性 ， 错 误 确 实 会 发 生 。 


既然 你 知道 这 些 聚 价 真 的 存在 ， 你 怎么 能 得 到 它们 呢 ? 当然 是 通过 机 和 喜 学 习 了 ! 由 于 
这 种 机 票 通 党 只 会 持续 几 个 小 时 然后 吏 消 失 了 ， 所 以 我 们 要 建立 一 个 应 用 程序 ， 持 续 监 控 
票 价 。 一 旦 出 现 异 钊 价格 ， 应 用 程序 将 产生 一 个 提醒 ， 然 后 我 们 惑 可 以 快速 地 采取 行动 了 。 


我 们 将 在 本 章 讨 论 以 下 主题 。 

。 在 网 上 获取 机 票 价 格 。 

*。 使 用 先进 的 网 络 抓 取 技术 检索 票 价 数 据 。 
。 解 析 文 档 对 象 模 型 以 提取 价格 。 


。 使 用 聚 闫 技术 识别 异 负 标价 。 






































和 而且 
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e 使 用 IFTTT 发 送 实时 文本 提醒 。 
3.1 获取 机 时 价格 数据 


好 在 ， 机 票 价格 数据 比 房地产 数据 更 容易 获得 ， 所 以 不 难 找 。 免 费 的 、 付 费 的 API 数 
据 源 以 及 许多 网 站 都 提供 这 些 数据 。 我 测试 了 其 中 一 些 服务 ， 但 最 后 ， 只 有 一 个 近 供 的 妆 
据 格 式 是 可 用 的 。 这 种 格式 使 我 们 很 容易 提前 几 个 月 就 能 找到 价格 最 低 的 航班 。 

在 我 告诉 你 是 哪个 服务 之 前 , 让 我 和 完 癌 你 展示 一 下 典型 的 航班 搜索 界面 , 如 图 3-1 所 示 。 








x :| :| 后 Vv 蕊 


Flights Hotels Bundle Deals Cars Cruises Things to Do 
Roundtrip Oneway Multiple destinations 


Flying from Flying to 


City or airport City or airport 


Departing Returning Adults (18+) Children (0-17) 





3-1 





对 于 我 们 的 目标 而 言 ， 这 种 类 型 的 接口 其 问题 在 于 一 一 所 有 的 API 接口 有 相同 的 问 
是 一 一 我 们 需要 对 所 感 兴趣 的 全 部 日 期 、 全 部 可 能 的 行程 长 度 、 每 个 机 场 都 执行 得 询 。 虽 
然 这 样 做 是 可 行 的 ， 但 是 做 法 太 栓 拙 了 了， 而 且 和 需要 耗费 大 量 的 精力 。 

好 在 ， 有 一 个 更 好 的 方法 。Google 近 供 了 一 个 鲜 为 人 知 的 工具 ， 被 称 为 航班 盒 询 占 。 
此 工具 可 让 你 碍 看 在 数 月 的 时 间 内 ， 从 一 个 地 区 到 夯 一 个 地 区 的 最 低 票 价 。 


图 3-2 是 搜索 从 纽约 到 欧洲 、 行 程 为 8 一 12 天 的 例子 。 返 回 的 城市 按照 价格 来 排序 ， 
从 最 低 价 到 最 高 价 。 
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Coogle 


Explore flights 


Lowest fares for trips of 8-12 days 
From 


New York (all airports) London, United Kingdon Best price $446 
To 

Europe 
Try: Europe, Mexico, Caribbean 


Trip length 


8-12 days 
Best price $471 





8E. 





对 于 僵 找 错误 聚 价 ， 这 种 格式 是 非常 理想 的 ， 原 因 古 返回 的 结果 按照 价格 排序 ， 鹤 齐 
整个 区 域 ， 时 间 跨 度 有 60 天 。 这 能 确保 有 异种 的 标价 出 现时 ， 会 目 动 跑 到 列表 的 顶部 。 


这 是 个 好 消 轧 。 坏 消息 是 Google 使 代码 拉 取 数据 这 件 事 悄 变 得 相当 有 挑战 性 。 羡 运 的 
是 ， 使 用 一 些 联 明 的 编码 ， 我 们 仍然 可 以 得 到 所 需 的 数据 。 


3.2 使 用 高 级 的 网 络 仆 虫 拉 术 检 索 架 价 数 据 





我 们 已 经 在 前 面 的 章节 中 学 习 了 如 何 使 用 request 库 来 检索 网 页 。 正 如 我 之 前 所 说 ， 
它 是 一 个 了 不 起 的 工具 ， 但 不 于 的 是 ， 这 里 无 法 工作 。 我 们 想 要 疏 取 的 页 面 是 完全 基于 
AJAX 的 。 异 步 JavaScript (AJAX) 这 个 方法 从 服务 器 获取 数据 ， 而 不 必 重 新 加 载 整个 页 
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面 。 这 意味 者 ， 需 要 使 用 浏览 器 来 检索 数据 。 虽 然 这 个 听 起 来 好 像 需 要 大 量 的 额外 工作 ， 
不 过 有 两 个 库 ， 当 一 起 使 用 它们 的 时 候 ， 这 残 会 成 为 一 个 轻 量 级 的 任务 。 

这 两 个 库 是 Selenium 和 PhantomJS。Selenium 是 一 个 强大 的 工具 ， 它 可 以 自动 化 Web 
浏览 项 ， 而 PhantomJS 是 一 个 浏览 锋 。 为 什么 使 用 PhantomJS 而 不 是 Firefox 或 Chrome 呢 ? 
PhantomJS 是 所 谓 的 无 头 浏览 右 ， 意 思 是 它 疫 有 可 视 化 的 用 户 界 面 。 这 使 得 它 非 常 精简 ， 
成 为 我 们 理想 的 选择 。 

















要 安装 PhantomJS， 你 可 以 从 http://phantomjs.org/ 
download.html 下 载 可 执行 文件 或 者 源码 。 至 于 
Selenium， 它 可 以 通过 pip 来 安装 。 








我 们 还 需要 另 一 个 名 为 BeautifulSoup4 的 库 来 解析 页 面 中 的 数据 。 如 果 你 还 没有 安装 

完成 这 些 安装 之 后 ， 让 我 们 开始 动手 吧 。 我 们 将 在 Jupyter 记事 本 里 工作 。Jupyter 最 
适合 探索 性 的 分 析 。 稍 后 ， 当 探索 完成 之 后 ， 我 们 会 继续 在 文本 编辑 器 中 工作 。 文 本 编辑 
器 更 适合 编写 我 们 想 要 部 署 为 应 用 程序 的 代码 。 

首先 ， 导 入 这 些 库 。 


import Pandas as Pd 








import numpy as np 


from selenium import webdriver 

from selenium.webdriver.common.desired capabilities import 
DesiredCapabilities 

from bs4 import BeautifulSoup 


import matplotlib.pyplot as plt 
smatplotlib inline 


接 下 来 ， 我 们 将 设置 代码 以 实例 化 浏览 器 对 象 。 正 是 这 个 对 象 将 为 我 们 拉 取 页 面 。 你 
可 以 在 浏览 饥 中 搜索 并 复制 URL， 以 此 来 选择 想 要 的 机 场 或 地 区 。 在 这 里 ， 我 会 得 找 从 纽 
约 机 场 到 几 个 亚洲 城市 的 行程 。 

url = 


"https://www.google.com/flights/explore/#explore;f=JFK ,EWR,LGA;t= 
HND ,NRT , TPE , HKG , KIX; s=1 ;1i=8;1x=12;d=2016-04-01" 


driver = webdriver.PhantomJSs () 
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dcap = dict(DesiredCapabilities .PHANTOMJS) 
dcap["phantomjs .Page .settings .userRAgent'"] = ("Mozilla/5.0 
(Macintosh; Intel Mac OS X 10 10 5) AppleWebKit/537.36 (KHTML, like 
Gecko) Chrome/46.0.2490.80 Safari/537.36") 


driver = webdriver .PhantomJS (desired capabilities=dcap, 
service args=['--ignore-ssl-errors=true']) 


driver.implicitly wait(20) 
driver.get (url) 


我 们 需要 问 接 收 请 求 的 服务 颖 友人 壕 一 个 用 尸 代理 。 你 可 以 使 用 我 在 此 列 出 的 代理 ， 或 
者 如 果 你 愿意 ， 也 可 以 将 其 蔡 换 为 自己 的 代理 。 进 入 到 解析 阶段 的 时 候 ， 这 点 变 得 尤为 重 
要 。 如 果 你 在 普通 的 浏览 占 中 使 用 菏 代理 来 选择 文档 对 象 模型 (DOM) 元 系 ， 然 后 在 代码 
中 传递 了 万 一 个 不 同 的 代理 ， 那 么 你 解析 页 面 的 时 候 也 许 会 碰 到 问题 ， 因 为 DOM 可 能 是 
与 用 户 代理 相关 的 。 


你 可 以 通过 Google 搜索 “what is my user agent?”， 来 找到 上 自己 的 用 户 代 理 。 
如 果 你 计划 将 其 用 于 其 他 的 息 虫 ， 请 复制 这 个 信息 ， 然 后 在 上 述 代码 中 使 用 它 。 

运行 上 述 代 人 码 之 后 ， 你 可 以 使 用 下 和 面 这 行 代码 来 保存 页 面 的 截图 。 请 检查 这 个 截图 
以 确保 一 切 看 起 来 正 第 。 

driver.save screenshot(r'flight explorer.png') 


如 果 一 切 痢 是 按 计划 完成 ， 你 应 该 可 以 看 到 输出 为 True， 并 且 生 成 一 个 与 所 抓 取 页 
面相 关 的 图 像 文 件 。 在 普通 的 Web 浏览 器 中 ， 它 看 起 来 就 像 原 有 的 页 面 。 


接 下 来 ， 我 们 将 继续 解析 页 面 以 提取 定价 信息 。 


3.3 解析 DOM 以 提取 定价 数据 











DOM 是 形成 网 页 结构 的 元 系 集 合 。 如 来 你 曾经 查看 过 网 页 的 源 代码 , 你 就 已 经 看 到 了 
DOM 的 各 个 模块 。 它 们 包括 例如 jbody、div、class 和 ig 这 样 的 元 素 和 标签 。 我 们 需 
要 处 理 这 些 元 系 来 所 取 所 圾 的 数据 。 


让 我 们 来 看 看 Google 网 页 的 DOM。 为 了 得 看 其 内 容 ， 请 在 该 页 面 上 单 击 右键 ， 并 单 
击 “ 检 得 元 系 ”。 对 于 Firefox 或 Chrome 浏览 左 ， 这 个 操作 应 该 是 相同 的 。 这 将 打开 开发 
人 员 选 项 卡 ， 人 多 许 你 得 看 页 面 的 源 信息 。 打 开 之 后 ， 在 左上 角 挑 选 元 素 选 择 匿 ， 并 单 击 其 
中 一 个 价格 栏 跳 转 到 相应 的 元 闵 。 如 图 3-3 所 示 。 
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Coogle 
Explore flights Upto 1stop - 


Lowest fares for trips of 8-12 days 
From 
New York (all airports) Hong Kong, Hong Kong Best price $656 
To 
HND, NRT, TPE, HKG, KIX 
Try: Europe, Mexico, Caribbean 


Trip length 


8-12 days 


“> Tokyo, Japan Best price $678 


[ OD |Elements | Network Sources Timeline Profiles Resources Audits Console 
¥<dlV Class="“FIWHFGDVB-V-M’> 
> <div class="FTWFGDB-v-e">..</div> 
v<div elt="graph"> 
v<div class="FTWFGDB-w-g"> 
Vv <div class="FTWFGDB-w-p"'> 
pb <div class="FTWFGDB-w-c">..</div> 
v<div class="FTWFGDB-w-o FTWFGDB-w-b"> 
<div class="FTWFGDB-w-x FTWFGDB-w-—f" left: 0px;i height: 72.3625px; ></div> 
<div class="FTWFGDB-w-x FTWFGDB-w-M” style="left: 6px; height: 72.3625px;"></div> 
<div class="FTWFGDB-w-x FTWFGDB-w-M” style="\left: 12px; height: 72.3625px;"></div> 
<div class="FTWFGDB-w-x" style="left: 18px; height: 72.3625px;"></diVv> 
<div class="FTWFGDB-w-x" style="left: 24px; height: 72.3625px;"></div> 
<div class="FTWFGDB-w-x" style="left: 30px; height: 72.3625px;"></div> 
<div class="FTWFGDB-w-x"” style="left: 36px; height: 72.3625px;"></div> 
<div class="FTWFGDB-w-x"” style="left: 42px; height: 72.3625px;"></div> 
<div class="FTWFGDB-w-x FTWFGCDB-w-M” style="left: 48px; height: 72.3625px;"></div> 
<div class="FTWFGDB-w-x FTWFGDB-w-M" style="left: S54px; height: 72.3625px;"></div> 
html body #root div div div div div div div div div div div.FTWFGDB-w-o.FTWFGDB-w-b DAIM/AND :S/N 


3-3 


你 注意 a 到 的 第 一 件 事 悄 可 能 是 ， 友 现 div 标签 中 没有 任何 定价 数据 。 如 果 将 孔 标 巧 停 在 
价格 栏 上 ， 将 出 现 一 个 显示 履 用 的 提示 ， 但 这 一 切 部 是 使 用 JavaScript 完成 的 ， 并 不 是 DOM。 
事实 上 ， 唯 一 可 用 的 信息 是 价格 栏 的 高 度 。 那 么 ， 我 们 如 何 获得 不 在 那里 的 数据 呢 ? 靠 推 闻 ! 


页 面 确实 给 了 我 们 足够 的 线索 来 推 新 价格 ， 那 束 是 使 用 价格 栏 的 高 度 。 你 会 注意 到 ， 
为 每 个 城市 所 列 出 的 是 最 好 的 票 价 。 你 可 以 在 条 形 图 的 左手 边 看 到 它 。 此 div 提供 了 文本 
类 型 的 价格 ， 如 图 3-4 所 示 的 屏幕 截图 。 


你 还 会 注意 到 ， 每 个 城市 都 有 一 个 条 匹配 了 最 低 的 票 价 。 相 比 其 他 的 条 ， 这 个 条 加 入 
了 更 蜡 的 阴影 来 突出 显示 。 因 为 有 一 个 独特 的 类 来 产生 这 种 颜色 ， 因 此 我 们 能 够 对 它 进 行 
定位 。 一 旦 我 们 找到 了 和 它 ， 融 可 以 使 用 它 的 高 度 除 以 价格 来 确定 每 个 像 系 所 对 应 的 价格 。 
使 用 这 种 方法 ， 推 导出 每 个 航班 的 价格 束 成 为 了 一 个 简单 的 数学 练习 。 
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Google 
Explore flights Up to 1 stop - 


Lowest fares for trips of 8-12 days 
From 


New York (all airports) Hong Kong, Hong Kong Best price $656 


To 
HND, NRT, TPE, HKG, KIX 
Try: Europe, Mexico, Caribbean 


Trip length 


8-12 days 


J Taipei, Taiwan Best price $657 


Wu， Tokyo, Japan Best price $678 
民 口 |lElements | Network Sources Timeline Profiles Resources Audits Console 
Y<dIv Class="FIWFGDB-V-Mm"> 
> <div class="FTWFGDB-v-e">..</div> 
v<div elt="graph"> 
v<div class="FTWFGDB-w-g"> 
v<div class="FTWFGDB-w-p"'> 
v<div class="FTWFGDB-w-c"> 
<div class="FTWFGDB-w-d">$961</div> 
<div class="FTWFGDB-w-e” style="top: 33.6375px;'>$656</div> 
</div> 
v<div class="FTWFGDB-w-o FTWFGDB-w-b"> 
<div class="FTWFGDB-w-x FTWFGDB-w-f" style="left: Opx; height: 72.3625px;"></div> 
<div class="FTWFGDB-w-x FTWFGDB-w-M” style="left: 6px; height: 72.3625px;"></div> 
<div class="FTWFGDB-w-x FTWFGDB-w-M” style="left: 12px; height: 72.3625px;"></div> 
<div class="FTWFGDB-w-x" style="\left: 18px; height: 72.3625px;"></div> 
<div class="FTWFGDB-w-x" style="\left: 24px; height: 72.3625px;"></div> 
<div class="FTWFGDB-w-x" style="left: 30px; height: 72.3625px;"></div> 
<div class="FTWFGDB-w-x" style="\left: 36px; height: 72.3625px;"></div> 
html body #root div div div div div div div div div.FTWFCDB-w-g div.FTWFCDB-w-p div.FTWFGDB-w-c 区 由 山本 We :Se 


图 3-4 





让 我 们 现在 编写 代码 。 

第 一 步 是 将 页 面 源 文件 提供 给 BeautifulsSoup。 

s = BeautifulSoup (driver.page source, "lxml") 
然后 我 们 可 以 获取 所 有 最 佳 价格 的 列表 。 


best price tags = s.findAll('div', 'FTIWFGDB-w-e') 
best prices = [] 
for tag in best price tags: 

best prices.append(int (tag.text.replace('$',''))) 


由 于 拥有 最 便宜 标价 的 城市 上 升 到 了 最 高 的 排名 ， 我 们 可 以 直接 使 用 它 。 
best price = best prices[0] 
接 下 来 ， 我 们 将 得 到 包含 每 个 条 的 高 度 的 列表 。 


best height tags = s.findAll('div', FIWEGDB-w-E ' ) 
best heights = [] 
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for 七 In best height tags : 
best heights.append(float(t.attrs['style']\ 
.Split('height:') [1] .replace('px;',''))) 


同样 ， 我 们 只 需要 第 一 个 。 

best height = best _ heights[0] 

然后 我 们 可 以 计算 每 个 高 度 像 系 所 对 应 的 价格 。 

pph = np.array (best price) /np.array (best height) 
接 下 来 ， 我 们 将 检索 每 个 城市 所 有 航班 的 价格 条 的 高 度 。 


cities = s.findAll('div', 'FTWFGDB-w-o') 








hlist=[] 
for bar in cities[0]\ 
.findAll('div', 'FTWFGDB-w-x'): 
hlist.append (float(bar['style']\ 
.Split('height: ') [1]\ 
.replace ('px;',''))*pph) 
fares = pd.DataFrame (hlist, columns=['price']) 


任务 完成 了 ， 我 们 现在 有 一 个 数据 框 ， 包 含 了 两 个 月 内 最 便宜 的 紧 价 。 下 面 来 看 看 。 
fares .min () 

上 述 代码 生成 图 3-5 的 输出 。 

我 们 的 最 低 采 价 应 该 与 负面 上 看 到 的 一 样 ， 而 事实 确实 如 此 。 现 在 再 看 看 完整 的 列表 ， 

















如 图 3-6 所 示 。 
















mw 
加 ET 
加 ET 
snooo0on 
加 ET 
ose ooooo0 
加 ET 
lesa cooo0 
556 |le ea 

floaté6d 
eso oo000 


图 3-5 图 3-6 


一 切 看 起 来 不 错 。 我 们 现在 可 以 继续 建立 异 疝 值 检 测 了 。 
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通过 聚 类 技术 识别 异 第 的 票 价 


机 票 全 天 都 在 不 断 地 更 新 。 如 果 我 们 试图 确定 远 低 于 正常 的 标价 ， 不 使 用 机 占 学 习 的 
技术 怎么 行 ? 这 看 上 去 似乎 是 相当 简单， 但 是 当 你 开始 思考 可 用 的 选项 时 ， 它 很 快 束 变 得 
比 预 期 复杂 得 多 。 


一 个 选择 是 获得 每 个 城市 的 价格 并 设置 一 个 闵 值 ， 如 来 它们 跌 到 比 立 值 还 低 的 价格 ， 
你 惑 肥 送 一 个 提醒 。 这 可 能 行 得 通 ， 不 过 是 将 比 目 前 最 低 价格 少 一 定量 的 百分比 设置 为 近 
醒 的 条 件 ， 还 是 将 具体 的 美元 金额 设置 为 提醒 条 件 ? 还 有 ， 如 何 设 置 它 ?如 果 由 于 季 市 性 
因素 导致 妹 价 目 然 下 降 ， 又 该 怎么 办 呢 ? 也 许 你 可 以 检查 每 个 价格 条 和 中 间 值 相 比 偏离 了 
多 少 。 如 果 价 格 接近 平稳 的 时 候 ， 出 现 一 个 很 小 幅度 的 下 降 呢 ?也 许 你 可 以 对 比 每 个 价格 
条 与 其 相 邻 条 的 高 度 。 如 采 错 误 票 价 出 现在 不 止 一 天 中 ， 又 会 如 何 ? 正如 你 所 见 ， 这 件 任 
务 不 是 看 上 去 那么 简单 的 。 鉴 于 此 ， 我 们 如 何 避 免 为 每 个 城市 存储 定价 数据 、 处 理 季 性 
因 系 ， 并 试图 设置 国 值 的 烦恼 呢 ? 这 里 使 用 聚 类 算法 。 


有 许多 聚 类 算法 可 用 ， 但 是 对 于 这 里 所 处 理 的 数据 类 型 ， 我 们 将 使 用 被 称 为 基于 密度 
的 空间 聚 类 算法 (DBSCAN)， 它 适合 带 有 噪声 数据 的 应 用 。 这 是 一 种 非常 有 效 的 算法 ， 倾 
向 于 使 用 和 人 类 相同 的 方式 来 识别 点 的 集群 。 图 3-7 是 来 自 scikit-learn 文档 中 的 可 视 化 图 
像 。 它 演示 了 DBSCAN 在 不 同 数据 分 布 范 围 内 的 有 效 性 。 


















































MiniBatchKMeansAffinityPropagation MeanShift ‘SpectralClustering Ward AgglomerativeClustering DBSCAN 
三 wa | 本 站 
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你 可 以 看 到 ， 它 是 相当 强大 的 。 让 我 们 现在 讨论 一 下 算法 的 工作 原理 。 
为 了 理解 DBSCAN 算法 ， 首 先 我 们 需要 讨论 两 个 参数 的 设置 ， 以 使 得 算法 能 够 运作 。 
第 一 个 参数 称 为 epsilon。 此 参数 确定 在 同一 聚 类 中 两 个 点 彼此 之 间 的 距离 。 如 果 epsilon 
设置 得 非 党 大， 那么 任何 两 个 点 则 更 可 能 聚集 在 一 起 。 第 二 个 参数 称 为 最 小 点 数 。 这 是 创 
建 肾 类 所 需 点 的 最 小 数量 (包括 当前 点 )。 如 果 最 小 的 点 数 是 1， 那 么 每 个 点 都 将 成 为 一 个 
聚 类 。 如 果 最 小 点 数 大 于 1， 那 么 有 可 能 某 些 点 就 不 隶属 于 任何 聚 类 。 然 后 这 些 点 就 被 认 
作品 声 一 一 也 就 是 DBSCAN 中 的 N。 


DBSCAN 算法 是 如 下 进行 的 。 从 所 有 点 的 集合 中 随机 选择 一 个 点 。 从 这 一 个 点 出 发 ， 
搜索 所 有 方 同 上 的 和 当前 点 相距 epsilon 距离 的 范围 。 如 果 在 epsilon 距离 的 范围 内 ， 存 在 
等 于 或 多 于 最 小 点 数 的 点 ， 那 么 这 个 范围 内 所 有 的 点 束 隶 属于 一 个 聚集 (图 3-7 中 的 彩色 
区 域 )。 针 对 每 个 新 加 入 充 聚 类 的 点 ， 重 复 该 过 程 。 继 续 此 操作 ， 直 到 没有 任何 新 的 点 可 以 
添加 到 此 聚 类 。 此 时 ， 第 一 个 聚 类 就 完成 了 。 现 在 ， 从 已 经 完成 的 聚 类 之 外 ， 随 机 选择 新 
的 点 再 次 开始 。 重 复 同样 的 过 程 ， 直 到 没有 新 的 聚 类 可 以 形成 。 

我 们 已 经 了解 了 算法 的 工作 原理 ， 现 在 将 其 应 用 到 机 票 的 数据 上 。 我 们 将 首先 创建 一 
个 简 蛙 的 图 像 来 检视 票 价 。 


fig, ax = plt.subplots (figsize=(10,6)) 




















plt.scatter (np.arange (len (fares['price'])),fares['price']) 


上 述 代 码 的 输出 如 图 3-8 所 示 。 


ee 0 e090 00 9 





图 3-8 


我 们 可 以 看 到 票 价 平 稳 了 几 个 星期 ， 然 后 开始 急剧 上 升 。 大 多 数 人 可 能 将 这 些 看 作 4 
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个 主要 的 聚 类 。 现 在 编写 代码 来 识别 和 显示 这 些 集群 。 
首先 ， 我 们 将 设置 一 个 price 数据 框 ， 然 后 可 以 将 DBSCAN 对 象 传 入 其 中 。 


px = [x for x in fares['price']] 
ff = pd.DataFrame (px, columns=['fare']) .reset index () 


然后 ， 我 们 需要 为 聚 类 导入 几 个 库 。 


from sklearn.cluster import DBSCAN 
from sklearn.preprocessing import StandardScaler 


最 后 ， 下 面 的 代码 将 DBSCAN 算法 应 用 于 票 价 数 据 并 输出 一 个 可 视 化 图 像 。 
X = StandardScaler() .fit transform (ff£) 
db = DBSCAN (eps=.5, min samples=1) .fit (xX) 


labels = db.labels 

clusters = len(set (labels)) 

unique labels = set (labels) 

colors = plt.cm.Spectral (np.linspace(0, 1, len(unique labels))) 
plt.subplots (figsize=(12,8)) 


for k, c in zip(unique labels, colors): 

class member mask = (labels == k) 

xy = X[class member mask] 

plt.plot(xy[:, 0], xy[:, 1], 'o', markerfacecolor=c, 
markeredgecolor='k', markersize=14) 


plt.title("Total Clusters: {}".format (clusters), fontsize=14, 
y=1 .01) 


让 我 们 逐 行 地 解释 。 在 第 一 行 , 我 们 使 用 standardScaler () 方法， 这 个 对 象 将 获取 
数据 ， 对 每 个 点 减 去 平均 值 ， 然 后 除 以 标准 差 “。 这 个 步骤 使 所 有 的 数据 位 于 相同 的 基础 
之 上 ， 并 为 算法 读 取 了 这 些 数 据 。 标 准 化 之 后 的 数据 被 传递 给 了 DBSCAN 对 象 。 这 里 设置 
了 前 面 讨论 的 两 个 参数 。 我 们 将 eps 或 者 epsilon 距 离 设 置 为 0 .5， 并 将 min samples 设 置 
为 1。 下 一 行 代码 将 labels 设 置 为 算法 的 labels 数 组 输出 。 每 个 点 (因为 min points 
设置 为 1) 都 将 天 联 一 个 聚 类 ID。 这 些 肥 类 将 被 标记 为 从 0 到 n-1， 其 中 nn 是 聚 类 的 总 数 。 
接 下 来 的 两 行 代码 获得 聚 类 的 总 数 及 其 唯一 标签 , 而 以 colors 开 头 的 代码 为 我 们 的 图 像 生 
成 了 有 颜色 的 图 。 剩 余 的 代码 对 图 像 进 行 了 设置 ， 包 括 对 每 个 聚 类 应 用 唯一 的 两 色 ， 并 使 
用 聚 关 的 总 数 为 图 像 设 置 标题 。 


让 我 们 来 看 看 图 3-9 中 票 价 数据 的 输出 。 








吧 译 者 注 : 这 种 标准 化 的 方法 称 为 Z-Score。 
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OO 
OOGOCDOO O 





3-9 


正如 你 所 见 ， 算 法 已 经 确定 了 四 个 不 同 的 聚 类 ， 这 正 是 我 们 所 期 望 的 。 我 刚刚 告诉 你 
该 算法 使 用 这 些 参数 运作 得 有 多 好 , 而 现在 就 准备 修改 参数 了 ,为 什么 要 破坏 完美 的 结果 ? 
好 吧 ， 让 我 们 来 看 看 几 个 引入 虚构 票 价 的 场景 。 

使 用 目前 的 票 价 系 列 和 相同 的 参数 ， 让 我 们 再 引入 一 个 新 的 票 价 。 

首先 , 将 序列 中 的 数据 点 #10 蔡 换 掉 。 我 们 将 其 从 656 美元 更 改 为 600 美元 , 如 图 3-10 
所 示 。 











3-10 
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你 会 注意 到 在 接近 图 形 撒 部 的 位 置 ， 这 个 点 形成 了 目 己 的 聚 基 。 然 而 ， 尽 过 这 个 标价 
与 其 他 的 价格 明显 分 开 ， 但 是 还 不 足以 引起 我 们 注意 。 
让 我 们 增加 epsilon 参数 ， 这 样 我 们 只 会 聚 出 两 个 分 组 :典型 的 际 价 和 不 正常 的 肥 价 。 


我 们 现在 保持 相同 的 虚构 票 价 ， 不 过 将 epsilon 增加 到 1.5， 如 图 3-11 所 示 。 








图 3-11 





你 可 以 看 到 现在 有 两 个 聚 闫 。 我 们 600 美元 的 紧 价 已 经 被 放 在 了 主 聚 闫 ， 而 在 图 顶部 
最 右 侧 的 权 价 已 经 形成 了 目 己 的 聚 类 。 这 看 起 来 很 合理 ， 因 为 最 右边 的 标价 是 一 个 明显 的 
异常 值 。 让 我 们 再 测试 一 下 ， 圾 要 多 远 的 距离 才能 将 虚构 的 肥 价 放 在 目 己 的 聚 类 里 ? 

图 3-12 的 截图 展示 了 让 虚构 标价 进一步 远离 后 的 结 

在 图 3-12 中 ， 将 其 删除 到 550 美元 ， 我 们 可 以 看 到 它 仍然 是 主 聚 闫 的 一 部 分 。 

图 3-13 中 ， 将 其 降 至 545 美元 ， 会 使 其 形成 目 己 的 聚 类 。 这 似乎 是 一 个 合理 的 水 平 ， 
个 过 现在 让 我 们 使 用 其 他 城市 运行 为 外 几 个 场景 试 试看 。 

图 3-14 是 东 束 成 田 机 场 的 数据 序列 。 其 中 有 个 单一 的 聚 闫 ， 这 古 我 们 所 希望 的 。 现 在 
换 一 个 虚构 的 票 价 。 我 们 将 序列 中 雁 5 的 标价 从 970 美元 丛 换 为 600 美元 。 这 是 一 个 大 幅 
的 下 降 一 一 远 远 超过 之 前 数据 序列 中 由 于 111 美 元 下 跌 而 触发 一 个 新 的 集群 一 -但 它 显然 在 
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通 第 的 价格 范围 内 ， 所 以 我 们 不 想 形 成 一 个 新 的 聚 类 。 


自 四 的 QeRaD 昌 自 自 





3-13 
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3-14 


从 图 3-15 中 你 可 以 看 到 没有 形成 新 的 聚 类 。 虚 构 的 票 价 和 其 左右 邻近 的 两 个 票 价 之 间 有 
如 此 大 的 距离 ， 为 什么 还 会 导致 这 种 情况 ? 这 是 因为 我 们 正在 处 理 整 个 序列 ， 而 不 仅仅 是 每 
个 点 最 近 的 邻 丰 。 最 有 可 能 的 是 ， 虚 构 的 数据 点 受到 其 左边 点 的 影响 而 加 入 到 聚 闫 。 让 我 
们 再 斌 一 个 场景 。 让 我 们 将 一 个 标价 置换 到 右边 一 一 进一步 远离 元 下 角 的 聚 类 ,如 图 3-16 
所 示 。 











3-15 
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图 3-16 
这 里 我 们 将 #5 的 标价 从 1176 美元 换 成 700 美元 。 这 会 导致 一 个 新 的 聚 类 。 票 价 是 在 全 
系列 际 价 的 范围 之 内 ， 但 是 现在 它 当 然 是 一 个 弄 妾 点 。 然 而 ， 我 们 很 可 能 不 想 被 告知 这 种 弄 汕 。 
由 于 我 们 不 希望 在 每 次 有 多 个 集群 时 都 被 提醒 ， 因 此 需要 为 布 望 和 被 告知 的 场景 设置 规则 。 
首先 ， 由 于 我 们 正在 寻找 错误 的 标价 ， 因 此 期 户 它 们 等 于 所 显示 的 最 低 价格 。 我 们 可 











以 按照 聚 类 来 分 组 并 检 过 最低 的 价格 。 


pf = pd.concat ([ff, pd.DataFrame (db.labels ， 


columns=['cluster'])], axis=1) 


pf 
上 述 代码 生成 图 3-17 的 输出 。 


以 下 代码 将 按照 聚 类 来 分 组 并 显示 分 组 中 最 低 的 价格 和 
成 员 的 数量 。 

rf=pf .groupby ('cluster')['fare'] .agg(['min' ，count']) 

rf 


上 述 代码 生成 图 3-18 的 输出 。 

这 里 我 们 还 预计 错误 聚 类 将 小 于 主 聚 关 。 我 们 对 错误 聚 
类 的 大 小 设置 一 个 限制 ， 要 求 它 小 于 忌 数 的 百 分 之 10。 在 这 
种 情况 下 ， 它 将 少 于 七 个 票 价 。 这 个 数字 将 根据 不 同 聚 类 的 
数量 和 大 小 而 变化 ， 但 这 应 该 是 一 个 可 行 的 数字 。 为 了 得 看 
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图 3-17 
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分 位 数 的 细节 ， 可 以 使 用 下 面 这 行 代码 。 
rf.describe([.10,.25,.5,.75,.9]) 


上 述 代 码 生 成 图 3-19 的 输出 。 


| 


i 683.500000 | 15.500000 
、 50% |689.000000 |30.000000 
m1 | 
75% |694.500000 44.500000 
el 
90% |697.800000 53.200000 





3-18 图 3-19 


让 我 们 再 添加 一 个 条 件 。 为 最 低 价 集 群 和 次 低 价 集群 之 间 设 置 一 个 最 小 距离 。 这 样 做 
将 防止 像 在 图 3-20 中 看 到 的 情况 。 








3-20 


这 里 的 费用 是 最 低 的 ， 但 它 只 是 比 其 他 聚 类 范围 低 那 么 一 点 点 。 设 置 最 小 距离 将 减少 
我 们 收 到 的 误 报 。 让 我 们 先 将 最 小 距离 设置 为 100 美元 。 
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现在 我 们 有 了 自己 的 异常 检测 规则 ， 下 面 来 看 看 如 何 将 全 部 的 模块 组 合 起 来 ， 完 成 实 
时 票 价 提醒 应 用 程序 。 


3.4 使 用 IFTTT 发 送 实时 提醒 


为 了 有 机 会 获得 这 些 便宜 的 标价 ， 当 它们 出 现时 我 们 需要 几乎 实时 地 知道 这 一 情况 。 
四 这 一 点 ， 我 们 将 使 用 一 个 名 为 ff This Then That 的 服务 (IFTTT)。 这 是 一 项 免费 
， 人 多 许 你 使 用 一 系列 的 触及 器 和 动作 ， 将 大 量 的 服务 连接 在 一 起 。 想 要 保存 Instagram 
ee 片 到 iPhone? 一 个 特定 的 人 每 次 有 友 布 Tweet 时 ， 你 都 想 收 到 一 个 电子 

邮件 ? 想 要 将 你 的 Facebook 更 新 发 布 到 Twitter? IFTTT 可 以 实现 所 有 这 一 切 ， 甚 至 更 多 。 


如 果 要 开始 使 用 IFTTT， 步 骤 如 下 。 
1. 在 http://www.ifttt.com 注 册 账 户 。 
2. 在 https://ifttt.com/maker 注册 Maker 频道 。 
3. 在 https://ifttt.com/sms 注册 SMS 频道 。 
Maker 频道 允许 你 发 送 和 接收 HITP 请 末 ,而 SMS 频道 允许 你 肥 送 和 接受 SMS 消息 。 
创建 账户 并 激活 两 个 频道 之 后 ， 请 单 击 主页 上 的 My Recepes， 然 后 再 单 击 Create a 
Recipe， 如 图 3-21 所 示 。 
My Recipes 


IF DO Published Favorites 


IF Recipes run automatically in the background. 
Create a Recipe 


G=y 
CE 
d the day's NPR news headlines 


3-21 


然后 搜索 并 选择 Maker 频道 ， 如 图 3-22 所 示 。 
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Choose Trigger Channel 


View all Channels 





$3 


接 下 来 ， 选 择 Receive a web request， 如 图 3-23 所 示 。 


M Choose a Trigger 


Receive a web request 

This Triggerfires every time the 
Maker Channel receives a web 
request to notify it of an event. See 
"How to Trigger Events" on the Maker 
Channel page 
(https://ifttt.com/maker) for more 
information. 








入 3-23 


然后 我 们 将 创建 一 个 名 为 fare alert 的 事件 ， 如 图 3-24 所 示 。 


M Complete Trigger Fields 


Receive a web request 


M Event Name 





fare_alert 


The name of the event, like "button_pressed" or "front_door_opened" 


Create Trigger 


3-24 
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接 下 来 ， 我 们 将 设置 that， 如 图 3-25 所 示 。 


if M thenthat 


Maker Event "fare_alert" 





9:25 


搜索 SMS 并 选择 它 。 然 后 选择 Send me an SMS， 如 图 3-26 所 示 。 


Choose Action Channel 


View all Channels 


SmMS 


Ww 四 分 


3-26 





之 后 ， 我 们 将 填写 fare_alert 的 字段 。 确 保 蔡 换 掉 原 文中 的 花 括号 "“， 如 图 3-27 所 示 。 
人 Complete Action Fields 
Send me an SMS 
人 Message 


The event named "fare_alert" occurred on the Maker 


Channe| 





Create Action 


3-27 


G 译 者 注 : 你 即将 看 到 的 花 括 号 是 保留 字 ， 用 于 传递 参数 。 
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一 旦 完成 ， 你 就 可 以 使 用 城市 和 机 票 价格 目 定 义 消 恩 ， 如 图 3-28 所 示 。 


Send me an SMS 


© Message 


A "mistake" fare has occurred! 
City: {{Value1}} 
Fare: {{Value2}} 





图 3-28 


为 了 测试 这 里 的 设置 是 否 奏 效 , 请 访问 http://www.ifttt.com/maker, 单 击 How to Trigger 
Events。 然 后 填写 fare alert 的 事件 ， 并 将 测试 城市 和 标价 放 在 valuel 和 value2 的 框 中 ， 
如 图 3-29 所 示 。 


Your key is: MY_SECRET _ KEY 


To trigger an Event 
Make a POST or GET web request to: 

https://maker,.ifttt.com/trigger/ fare_alert /with/key/MY_SECRET_KEY 
With an optional JSON body of: 


{ "valuel” : "| NRT |", "value2"” : "| 468 |", "value3" : “ 


The data is completely optional, and you can also pass value]l, value2, and value3 as guery parameters or form variables. This content will be 
passed on to the Action in your Recipe. 





图 3-29 





最 后 ， 单 击 Test It， 你 应 该 会 在 短 短 几 秒 钟 内 收 到 一 条 短信 。 
现在 ， 所 有 的 模 英 都 已 经 就 绪 ， 和 是 时 候 将 它们 整合 到 单个 脚本 中 ， 让 其 进行 24X7 小 


时 的 聚 价 监 控 。 


3.5 整合 在 一 起 








之 前 ,我 们 都 在 Jupyter 记事 本 里 工作 , 但 现在 需要 部 署 应 用 程序 了 ， 我们 会 切换 到 文 


ww ai bbt.com DODODDDDOD 





3.5 整合 在 一 起 79 
本 编辑 器 中 工作 。 记 事 本 对 于 探索 性 分 析 和 可 视 化 是 很 棱 的 ， 不 过 运行 后 人 台 作 业 最 好 使 用 
一 个 简单 的 .py 文件 。 所 以 让 我 们 开始 吧 。 
我 们 将 从 包 的 引入 开始 。 如 果 你 尚未 安装 这 些 包 ， 可 能 需要 通过 pip 安装 它们 。 


import sys 





import pandas as pd 
import numpy as np 


import requests 


from selenium import webdriver 

from selenium.webdriver.common.desired capabilities import 
DesiredCapabilities 

from selenium.webdriver.common.by import By 

from selenium.webdriver.support.ui import WebDriverWait 

from selenium.webdriver.support import expected conditions as EC 


from bs4 import BeautifulSoup 


from sklearn.cluster import DBSCAN 
from sklearn.preprocessing import StandardScaler 


import schedule 
import time 


接 下 来 ， 我 们 将 创建 一 个 函 数 来 拉 取 数据 并 运行 聚 类 算法 。 请 注意 ， 当 我 们 获取 数据 
的 时 候 ， 会 存在 一 个 明显 的 等 每 。 这 是 因为 页 面 有 AJAX 的 异步 请 求 ， 我 们 需要 增加 一 个 
等 生 时 间 ， 以 确保 继续 下 一 步 之 前 页 面 的 定价 数据 已 经 被 返回 。 如 果 由 于 条 种 原因 ， 抓 取 
仍然 失败 ， 那 么 这 里 将 肥 送 一 个 文本 作为 提醒 。 

def check flights () : 


url = "https://www.google.com/flights/explore/#explore ;f=JFK, 
EWR, LGA; t=HND , NRT , TPE , HKG , KIX; s=1 ;1i=8;1x=12;d=2016-04-01" 











driver = webdriver.PhantomyJSs () 


dcap = dict(DesiredCapabilities .PHANTOMJS) 
dcap["phantomjs .page.settings.userAgent"] = \ 
("Mozilla/5.0 (Macintosh; Intel Mac OS X 10 10 5) 
AppleWebKit/537.36 (KHTML, like Gecko) Chrome/46.0.2490.80 Safari/537.36") 


driver = webdriver.PhantomJS (desired capabilities=dcap, 
service args=['--ignore- 
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ssl-errors= 七 Tue ' ] ) 
driver.get (url) 


wait = WebDriverWait (driver, 20) 
wait.until (EC.visibility of element located( (By.CSS SELECTOR, 
"span .FTWFGDB-v-c"))) 


s = BeautifulSoup (driver.page source, "lxml") 
best price tags = s.findAll('div', 'FTWFGDB-w-e') 


# 检查 爬虫 是 否 工 作 正 常 一 一 如 果 失 败 了 惑 发 送 提 醒 并 关闭 

if len(best price tags) < 4: 
print('Failed to Load Page Data') 
requests .post('https://maker .ifttt.com/trigger/fare alert/with/key/MY SECRE 
T KEY',data={"valuel": "script", "value2": "failed", 
"value3": ""})) 

SYS .exit(0) 

else: 
print('Successfully Loaded Page Data') 


best prices = [] 
for tag in best price tags: 
best prices.append(int (tag.text.replace('$', “7.))) 


best price = best prices[0] 


best height tags = s.findAll('div', 'FTIWFGDB-w-f') 
best heights = [] 

for 七 In best height tags : 

best heights.append (float(t.attrs['style'] 
.Split('height:') [1] .replace('Ppx;', ''))) 


best height = best heights[0] 


# 每 个 高 度 像素 对 应 的 价格 


PPh = np.array (best price)/np.array (best_height) 


cities = s.findAll('div', '‘'FTWFGDB-w-o') 
hlist = [] 
for bar in cities[0] .findAll('div', 'FTWFGDB-w-x'): 


hlist.append(float(bar['style'] .split('height: ')[1] 
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.replace('px;', '')) * PPh) 


fares = pd.DataFrame (hlist, columns=['price']) 
px = [x for x In fares['price']] 
ff = pd.DataFrame (px, columns=['fare']) .reset Index () 


# 开始 聚 类 
X = StandardScaler() .fit transform (ff£) 
db = DBSCAN (eps=1.5, min samples=1) .fit (xX) 


labels = db.labels 
clusters = len(set (labels)) 


pf = pd.concat([ff, pd.DataFrame (db.labels , columns= ['cluster'])], 


rf = pf.groupby('cluster') ['fare']\ 
agg (['min', ‘count']).sort values('min', scending=True) 


现在 我 们 将 检查 规则 是 否 被 触发 。 如 果 是 ， 就 发 送 接收 文本 的 请 求 。 


# 设 置 我 们 的 规则 
# 必 须 有 多 于 1 个 的 聚 类 
# 聚 类 的 最 小 值 必须 等 于 最 低 的 票 价 
# 聚 类 的 大 小 必须 小 于 全 部 数量 的 百 分 之 10 
# 聚 类 必须 比 次 低 的 价格 聚 类 少 100 美元 及 以 上 
If clusters > 1\ 
and ff['fare'] .min() == rf.iloc[0]['min']\ 
and rf.iloc[0]['count'] < rf['count'] .quantile(.10)\ 
and rf.iloc[0]['fare'] + 100 < rf.iloc[l1l]['fare']: 
city s.find('span', 'FTWFGDB-v-c') .text 
fare = s.find('div', 'FTWFGDB-w-e') .text 
requests .post('https://maker .ifttt.com/trigger/fare alert/with/key/MY SECRE 
T KEY', data={"valuel": city, "value2": fare, "value3": ""}) 








else: 
print('no alert triggered') 


最 终 ， 我 们 将 设置 一 个 调度 占 。 它 每 60 分 钟 运行 一 次 这 里 的 代码 。 
# 设 置 调 度 器 ， 每 60 分 钟 运行 一 次 我 们 的 代码 
schedule.every (60) .minutes.do(check flights) 


while 1: 
schedule.run Pending () 
time .sleep (1) 
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这 样 做 应 该 就 完工 了 了。 我 们 现在 可 以 将 其 保存 为 fare_alerter.Py， 并 在 命令 行 中 
运行 它 。 它 将 持续 运行 并 每 60 分 钟 检查 一 次 标价 。 如 末 出 现 了 错误 的 机 票 ， 我 们 将 是 第 一 


个 知道 的 ! 
请 注意 ， 这 是 此 类 代码 的 最 基本 实现 。 为 了 创建 一 个 合 
理 的 实现 ， 应 该 使 用 良好 的 日 志 记 录 来 代替 这 里 列 出 
的 打印 语句 。 有 关 如 何 实现 日 志 记 录 的 更 多 信息 ,请 参 
J Ce OYECNon or /ontoy 





OGLnGahtmltloog0Lno=DaslLcC=-tUuLOLrLal: 


3.6 小 结 


本 章 讨 论 了 很 多 内 容 。 我 们 学 会 了 如 何在 Web 上 找到 最 好 的 机 票数 据 , 如 何 使 用 DOM 
来 得 找 和 解析 HIML 元 系 ,， 如 何 将 数据 聚集 为 有 意义 的 组 , 最 后 是 如 何 通 过 IFTTT 的 Web 
请 求 ， 从 代码 发 送 文 本 提醒 。 虽 然 我 们 在 这 里 讨论 的 是 机 票 相关 的 内 容 ， 但 是 所 做 的 工作 
几乎 可 以 重用 于 任何 你 想 关 注 的 定价 。 

如 果 你 决定 对 机 有 使 用 这 个 程序 ， 我 布 望 它 能 为 你 提供 许多 快乐 的 旅行 ! 

下 一 章 会 讨论 如 何 使 用 分 类 算法 来 帮助 预测 IPO 的 市 场 。 
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第 4 章 
使 用 逻辑 回归 预测 IPO 市 场 





在 20 世纪 90 年 代 末 ， 获 得 了 对 的 IPO (首次 公开 募股 ) 就 像 赢 得 彩票 一 样 。 对 于 一 
些 技术 公司 而 言 ， 第 一 天 的 回报 是 它们 最 初 发 行 价格 的 很 多 倍 。 如 果 你 圣 运 地 得 到 了 一 个 
配额 ， 那 就 会 获得 一 笔 意 外 之 财 。 这 里 列 出 在 那个 时 期 ， 第 一 天 表现 最 棱 的 几 家 公司 。 
eVA Linux 上 涨 697%6，12/09/1999。 











eGlobe.com 上 涨 606%，11/13/1998。 
eFoundry Networks 上 涨 525%，9/28/1999。 


里 然 互 联网 狐 狂 的 日 子 已 经 离 我 们 远 去 ， 但 IPO 仍然 可 能 在 第 一 天 给 予 超额 的 回报 。 
以 下 是 在 过 去 几 年 ， 第 一 天 交易 涨幅 超过 100% 的 几 个 。 


eSeres Therapeutics 上 涨 185%，06/26/2015。 





eAudro Biotech 上 涨 147%，4/15/2015。 
eShake Shack 上 涨 118%，1/30/2015。 


正如 你 所 看 到 的 ， 这 仍然 是 一 个 值得 关注 的 市 场 。 在 本 章 中 ， 我 们 将 仔细 观察 IPO 市 
场 。 我 们 将 看 看 如 何 使 用 机 器 学 习 来 帮助 自己 决策 ， 哪 些 IPO 值得 仔细 研究 ， 而 哪些 是 可 
以 忽略 的 。 


我 们 将 在 本 章 中 讨论 以 下 主题 。 
eIPO 市 场 。 
数据 清洗 和 特征 工程 。 

e。 使 用 远 辑 回归 的 二 元 分 类 。 
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。 模 型 评估 。 
e 特 征 的 重要 性 。 


4.1 1P0 市 场 


在 我 们 开始 建 模 之 前 , 先 讨 论 一 下 什么 是 IPO 或 首次 公开 募股 )， 以 及 关于 这 个 市 场 ， 
研究 的 结 琳 能 告诉 我 们 些 什 么 。 之 后 ， 我 们 将 讨论 一 些 可 以 应 用 的 策略 。 


4.1.1 什么 是 IPO 








自 钦 公开 努 股 是 一 家 私人 公司 成 为 上 市 公司 的 过 程 。 公 开 友 行为 公司 努 集资 金 ， 并 让 
公众 通过 购买 其 股票 ， 获 得 投资 该 公司 的 机 会 。 

虽然 具体 实施 有 些 不 同 ， 但 在 典型 的 用 行 过 程 中 ， 一 家 公司 会 列 出 一 家 或 多 家 承销 其 
及 行 的 投资 银行 。 这 意味 看 那些 银行 网 公司 傈 证 ， 在 肥 行 当天 他 们 将 购买 所 有 以 IPO 价格 
提供 的 股份 。 当 然 ， 承 销 的 银行 不 打算 目 己 保留 全 部 的 股份 。 在 有 太行 公司 的 帮助 下 ， 他 们 
去 做 所 谓 的 路 演 ， 吸 引 机 构 客 户 的 兴趣 。 这 些 客户 可 以 预订 股份 ， 表 示 他 们 有 意 在 IPO 当 
天 购买 股票 。 这 是 一 个 非 约束 性 合同 ， 因 为 友 行 的 价格 下 到 了 Po 的 当天 才 最 终 确定 。 然 后 ， 
承销 丙 将 根据 客户 们 所 表达 的 感 兴 趣 程 度 ， 设 定 友 行 的 价格 。 

从 我 们 的 角度 来 看 ， 非 常 有 趣 的 地 方 在 于 : 研究 表明 IPO 一 直 被 系统 性 地 低估 。 有 许 
多 理论 解释 为 什么 会 肥 生 这 种 情况 ， 以 及 为 什么 低 佑 的 范围 会 随 独 时 间 而 变化 ， 不 过 可 以 
肯定 的 是 ， 研 究 已 经 显示 出 每 年 有 “ 数 十 亿美 元 留 在 果子 上 ”。 

在 IPO 中 ,“ 贸 在 条子 上 的 钱 ” 是 指 股票 的 及 行 价 和 第 一 天 收盘 价 之 间 的 差价 。 


在 我 们 继续 之 前 ， 还 应 该 谈 一 谈 友 行 价 和 开盘 价 之 间 的 区 别 。 虽 然 偶然 的 情况 下 你 可 
以 通过 经 纪 人 的 交易 ， 以 及 行 价 获得 IPO， 但 作为 一 个 普通 的 公众 ， 你 基本 上 不 得 不 以 开 
盘 价 〈 通 党 更 高 ) 来 购买 I PO。 我 们 将 在 这 个 假设 下 构建 模型 。 


4.1.2 近期 IPO 市 场 表 现 


现在 来 看 看 IPO 市 场 的 表现 。 我 们 将 从 IPOScoop .com 拉 取 数据 。 这 是 一 项 为 即将 
到 来 的 IO 提供 评级 的 服务 。 请 访 问 
https://www.iposcoop.com/scoop-track-record-from-2000-to-present 
/并 蛙 击 外面 的 部 的 按钮 ， 下 载 一 个 电子 表格 。 我 们 将 其 加 载 到 pandas， 并 使 用 Jupyter 记 
事 本 运行 一 些 可 视 化 。 




















ww ai bbt.com DODODDDDD 





4.1 IPO 市 场 85 


自 完 ， 进 行 整个 章 市 部 需要 的 导入 坏 市 。 然 后 ， 我 们 会 像 下 面 这 样 拉 取 数据 。 


importnumpy as np 

import pandas as pd 

importmatplotlib.pyplot as plt 

from patsy import dmatrix 

fromsklearn.ensemble import RandomForestClassifier 
fromsklearn import linear model 

matplotlib inline 

ipos = pd.read csv(r'/Users/alexcombs/Downloads/ipo data.csv', 
encoding='latin-1') 


ipos 


上 述 代 人 码 生 成 图 4-1 的 输出 。 


ee 
主 承 销 /联席 主 承销 发 行 价 | 开盘 价 Li Ri 人 1 全 评级 
变化 
2002- ， 
-本 mm。 ev erseome oo so sar sor ee | i 2 
7 emoooretee zo | fsio0 staor [sr2os os2% om len0s 1 wen 
02-01 Lynch 
pe 
| 


2002- | Carolina Group Salomon Smith 
2 CG $28.00 | $30.05 29.10 13.93% 2.05 1.10 13 
3 |2002- |Sunoco Logistics | |Lehman Brothers $20.25 |$21.25 |$22.10 |9.14% $1.00 |$1.8 
02-05 | Partners 
| sd i MANT |Jefferies $17.10 |$18.21 |13.81% |$1.10 |$2.21 |3 
02-07 | International 
= 








图 4-1 
这 里 我 们 可 以 看 到 ， 对 于 每 个 IPO 都 有 一 些 不 少 的 信息 : 发 行 日 期 、 发 行者 、 发 行 价 
格 、 开 盘 价 格 以 及 价格 的 变化 。 让 我 们 先 按 照 年 份 来 探索 表现 的 数据 。 


我 们 弟 先 需要 进行 一 些 清理 工作 ， 以 正确 地 格式 化 所 有 的 列 。 这 里 将 去 挥 美元 和 百 分 
比 符号 。 














ipos = ipos.applymap (lambda x: x if not '$' in str(x) else 
x.replace('$','')) 

ipos = ipos.applymap (lambda x: x if not '%' in str(x) else 
x.replace('%','')) 

ipos 


上 述 代 人 码 生 成 图 4-2 的 输出 。 
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, 开盘 价 和 
首 日 价格 | 公交 
主 承 销 / 联 席 主 承销 恋 发 行 价 相 


Bear Stearns 





Lehman Brothers/Merrill 
Lynch 


2002- |Sunoco Logistics 
SXL Lehman Brothers 2 





2002- |ManTech 
MANT |Jefferies 
Be 


图 4-2 
接 下 来 ， 我 们 将 修正 所 有 列 的 数据 类 型 。 目 前 它们 都 是 对 象 ， 但 是 对 于 即将 执行 的 聚 


合 和 其 他 操作 而 言 ， 我 们 需要 数值 类 型 。 使 用 下 面 这 行 代码 来 查看 列 的 数据 类 型 。 


IPos .Info () 
上 述 代码 生成 图 4-3 的 输出 。 


<class “pandas .COre .frame .DataFrame > 
Int64Index: 2335 entries, 0 to 2334 
Data columns (total 12 columns): 
2335 non-null object 
2335 non-null object 
2335 non-null object 
Lead/Joint-Lead Mangager 2335 non-null object 
Offer Price 2335 non-null object 
Opening Price 2335 non-null object 
lst Day Close 2335 non-null object 
lst Day % Px Chng 2335 non-null object 
$ Chg Opening 2335 non-null object 
$ Chg Close 2335 non-null object 
Star Ratings 2335 non-null object 
Performed 259 non-null object 
dtypes: object(12) 
memory usage: 237.1+ KB 


图 4-3 
在 我 们 的 数据 中 有 一 些 'N/C' 的 值 ， 前 先 需 要 将 其 蔡 换 。 之 后 束 可 以 更 改 数据 类 型 了 。 


ipos.replace('N/C',0, inplace=True) 





ipos['Date'] = pd.to datetime (ipos['Date']) 

ipos['Offer Price'] = ipos['Offer Price'] .astype('float') 

ipos['Opening Price'] = ipos['Opening Price'] .astype('float') 

ipos['lst Day Close'] = IPos['1Lst Day Close'] .astype('float') 

ipos['lst Day % Px Chng '] = ipos['lst Day % Px Chng '] .astype('float') 
ipos['$ Chg Close'] = ipos['$ Chg Close'] .astype('float') 

ipos['$ Chg Opening'] = ipos['$ Chg Opening'] .astype('float') 
ipos['Star Ratings'] = ipos['Star Ratings'] .astype('int') 
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人 ~ _ 症 、 口 Sh 
表 注 意 ， 这 会 抛 出 一 个 错误 ， 如 图 4-4 所 示 。 
pandas/tslib. in pandas.tslib.array to datetime (pandas/tslib.c:37155)() 


pandas/tslib.pyx in pandas.tslib.array to datetime (pandas/tslib.c:35996)() 


pandas/tslib.pyx in pandas.tslib.array to datetime (pandas/tslib.c:35724)() 


pandas/tslib.pyx in pandas.tslib.array to datetime (pandas/tslib.c:35602)() 
pandas/tslib.pyx in pandas.tslib.convert to tsobject (pandas/tslib.c:23563)() 
pandas/tslib.pyx in pandas.tslib. check dts bounds (pandas/tslib.c:26809)() 


OutOfBoundsDatetime: Out of bounds nanosecond timestamp: 120-11-01 00:00:00 





4-4 


这 意味 着 我 们 的 日 期 中 有 一 个 格式 是 不 正确 的 。 基 于 上 述 的 堆栈 跟踪 信息 发 现 问 题 ， 
然后 修复 它 。 


ipos [ipos['Date']=='11/120'] 


发 现 这 个 错误 后 ， 我 们 将 观察 图 4-5 的 输出 。 


11/120 Alon USA ALDW Ed Seoha Credit 
Partners, LP Suisse/ Citigroup 





正确 的 日 期 应 该 是 11/20/2012， 因 此 我 们 将 对 其 设置 正确 的 值 并 重新 运行 前 面 的 数据 
类 型 修订 。 之 后 ， 一 切 都 可 以 顺利 进行 。 


ipos.loc[1660, 'Date'] = '2012-11-20' 


ipos['Date'] = pd.to datetime (ipos['Date']) 

ipos['Offer Price'] = ipos['Offer Price'] .astype('float') 
ipos['Opening Price'] = ipos['Opening Price'] .astype('float') 
IPos['1Lst Day Close'] = IPos['1Lst Day Close'] .astype('float') 
ipos['lst Day % Px Chng '] = ipos['lst Day % Px Chng '] 
.astype('float') 

ipos['$ Chg Close'] = ipos['$ Chg Close'] .astype('float') 
ipos['$ Chg Opening'] = ipos['$ Chg Opening'] .astype('float') 
ipos['Star Ratings'] = ipos['Star Ratings'] .astype('int') 


ipos .Info () 


上 述 代码 生成 图 4-6 的 输出 。 
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<class “pandas .COre .frame .DataFrame > 

Int64Index: 2335 entries, 0 to 2334 

Data columns (total 12 columns): 

Date 2335 non-null datetime64[ns] 
Issuer 2335 non-null object 

Symbol 2335 non-null object 
Lead/Joint-Lead Mangager 2335 non-null object 

Offer Price 2335 non-null float64 
Opening Price 2335 non-null float64 

lst Day Close 2335 non-null float64 

lst Day % Px Chng 2335 non-null float64 

$ Chg Opening 2335 non-null float64 

$ Chg Close 2335 non-null float64 

Star Ratings 2335 non-null int64 
Performed 259 non-null object 

dtypes: datetime64[ns]{(1), float64(6), int64(1), object(4) 
memory usage: 237.1+ KB 





图 4-6 


现在 ， 终 于 可 以 开始 我 们 的 探索 了 了。 这 里 从 第 一 天 的 平均 收益 百分比 开始 。 


ipos.groupby (ipos['Date'] .dt.year)['lst Day $% Px Chng ']\ 
.mean () .plot (kind='bar', figsize=(15,10), color='k', title='lst Day Mean 
IPO Percentage Change ' ) 


上 述 代码 生成 图 4-7 的 输出 。 
首 日 IPO 变 化 百分比 的 均值 








0 | | | 
bb 4 a 
一 二 一 一 - = 一 - 可 是 
: 
L | 


”年份 
图 4-7 


这 里 都 是 近年 来 一 些 正 同 的 百分比 。 让 我 们 现在 来 看 看 与 平均 值 相 比较 ， 中 位 数 的 表 
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现 又 是 如 何 。 


ipos .groupPby (ipos['Date'] .dt.year)['lst Day $% Px Chng ']\ 
.median() .plot (kind='bar', figsize=(15,10), color='k', title='lst Day 


Median IPO Percentage Change ' ) 


上 述 代 人 码 生 成 图 4-8 的 输出 。 
首 日 IPO 变 化 百分比 的 中 位 数 





图 4-8 


通过 平均 值 和 中 位 数 的 对 比 ， 我 们 可 以 清楚 地 看 到 ， 一 些 较 大 的 异常 值 造 成 了 回报 分 
布 的 俩 笠 。 让 我 们 来 仔细 观察 一 下 。 


IPos['1Lst Day % Px Chng '] .daescLribe() 


上 述 代 人 码 生 成 图 4-9 的 输出 。 
.000000 
.152599 
.924024 
.220000 
.000000 


.750000 
.715000 
.850000 
sg Px Chng , dtype: float64 





图 4-9 
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现在 我 们 还 可 以 将 其 绘制 成 图 。 
ipos['lst Day % Px Chng '] .hist(figsize=(15,7), bins=100, color='grey') 


上 述 代 码 生 成 图 4-10 的 输出 。 





图 4-10 





从 图 4-10， 我 们 可 以 看 到 大 多 数 回 报 集中 在 零 附 近 ， 但 有 个 长 尾 一 二 拖 到 右 侧 ， 那 里 
有 一 些 真正 的 全 爸 打 “发 行 价 。 

我 们 已 经 看 过 第 一 天 的 百分比 变化 ， 束 是 从 及 行 价 到 当天 收盘 价 的 差距 ， 但 正如 我 前 
面 所 指出 的 ， 很 少 有 机 会 能 够 以 发 行 价 买 入 。 既 然 如 此 ， 现 在 让 我 们 来 看 看 开盘 价 到 收盘 
价 的 收益 率 。 它 有 助 于 我 们 理解 这 个 问题 ， 所 有 的 收益 都 是 给 了 那些 拿 到 发 行 价 的 人 ， 还 
征 说 在 第 一 天 人 们 仍然 有 机 会 冲 入 并 获得 超 高 的 回报 ? 

为 了 回答 这 个 问题 ， 我 们 首先 创 建 两 个 新 的 列 。 

ipos['$ Chg Open to Close'] = ipos['$ Chg Close'] - ipos['$ Chg Opening'] 

] = 


ipos['% Chg Open to Close' 
Price']) * 100 


上 面 的 代码 生成 图 4-11 的 输出 。 








(ipos['$ Chg Open to Close']/ipos['Opening 


G 译 者 注 : 这 里 形容 非常 成 功 的 发 行 。 
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要 首 日 价 
发 行 价 开盘 价 We en 
比例 


2002- Lehman 

02-01 zymoGenetics |zZGEN |Brothers/Merrill |12.00 |12.01 12.05 |0.42 0.04 o. 333056 
Lynch 

2002- | Carolina Group loro oon 本 
Barney/Morgan |28.00 | 30.05 29.10 |3.93 1.10 -0.95 |-3.161398 

02-01 | 人 Loews Corp.) 一 pe 


| |sunoco | 





图 4-11 
接 下 来 ， 我 们 将 生成 统计 信息 。 


ipos['% Chg Open to Close'] .describe() 


上 面 的 代码 生成 图 4-12 的 输出 。 


count 2335.000000 
mean .816079 
stdqd .401379 
min .522167 
25% .817541 


S50% .000000 
75% .691830 
max 113.333333 
Name: % Chg Open to Close, dtype: float64 





图 4-12 


即刻 ， 这 些 数据 看 起 来 殉 令 人 怀疑 了 了 。 虽 然 首 次 公开 葵 股 有 可 能 在 开盘 后 下 跌 ， 但 是 
跌幅 几乎 达到 99%， 似 乎 是 不 太 现实 的 。 经 过 一 番 调 碍 ， 我 们 发 现 好 像 两 个 表现 最 差 的 发 
行者 实际 上 是 不 好 的 数据 点 。 当 处 理 现 实 世 界 的 数据 时 ， 往 往 情 况 惑 是 如 此 ， 所 以 我 们 将 
更 正 这 些 并 重新 生成 数据 。 


ipos.loc[440, '$ Chg Opening'] = .09 
.01 
ipos.loc[1264, 'OPening Price'] = 11.26 














ipos.loc[1264, '$ Chg Opening'] 


ipos['$ Chg Open to Close'] = ipos['$ Chg Close'] - ipos['$ Chg Opening'] 
ipos['% Chg Open to Close'] = (ipos['$ Chg Open to Close']/ipos['Opening 
Price']) * 100 


ipos['% Chg OPen to Close'] .describe() 


上 述 代 码 生 成 图 4-13 的 输出 。 
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000000 
.880407 
.114790 
03333 
.800000 


.000000 
.691830 
33333 
Name: % Chg Open to Close, dtype: float64 





图 4-13 


这 次 损失 下 降 到 40%, 看 起 来 仍然 让 人 先 得 怀疑 , 不 过 仔细 观察 之 后 , 发 现 它 是 Zillow 
的 IPO。Zillow 开盘 炒 得 噶 第 火热 ， 但 在 收盘 前 很 快 束 跌 到 了 地 板 上 。 这 告诉 我 们 ， 坏 数 
据点 似乎 已 经 被 清理 完毕 了 。 

现在 将 继续 前 进 ， 和 希望 我 们 已 清除 了 大 部 分 的 错误 。 

ipos['% Chg OPen to Close'] .hist(figsize=(15,7), bins=100, color='grey') 


上 述 代 码 生 成 图 4-14 的 输出 。 





图 4-14 


最 后 ， 我 们 可 以 看 到 开盘 价 到 收盘 价 变化 的 分 布 形状 ， 和 发 行 价 到 收盘 价 变化 的 分 布 相 








比 ， 有 着 明显 的 差 寞 。 平 均值 和 中 位 值 都 有 显著 的 下 降 ， 而 且 紧 由 着 原点 右 侧 的 条 形 看 上 
去 有 一 个 健康 的 梯度 ， 而 原点 左 侧 的 条 形似 乎 也 按照 比例 进行 了 增长 “。 注 意 ， 右 边 的 长 





G 译 者 注 : 之 所 以 作者 认为 这 样 的 分 布 更 健康 ， 是 因为 它 更 符合 常见 的 正 态 分 布 假设 。 
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尾 没有 之 前 那么 明显 了 ， 但 仍然 是 值得 注意 的 ， 所 以 还 有 一 丝 希望 。 
4.1.3 基本 的 IPO 策略 

现在 我 们 对 市 场 有 了 一 些 感觉 ， 这 里 来 探讨 几 项 策略 。 如 果 我 们 以 其 开盘 价 购买 每 个 
IPO 股票 ， 然 后 在 收盘 时 卖 出 ， 那 么 最 终 收 益 如 何 ? 我 们 看 一 下 2015 年 迄今 的 数据 。 


ipos[ipos['Date']>='2015-01-01']['$ Chg OPen to Close'] .describe() 


上 述 代 人 码 生 成 图 4-15 的 输出 。 





.000000 
.659105 
.334366 
.729963 
。735019 


.000000 
.706447 
.903061 
: $$ Chg Open to Close, dtype: float64 





图 4-15 


ipos[ipos['Date']>='2015-01-01']['$ Chg Open to Close'] .sum() 


上 述 代码 生成 图 4-16 的 输出 。 
让 我 们 拆 分 一 下 熏 利 的 交易 和 亏损 的 交易 。 图 4-16 


ipos[ (ipos['Date']>='2015-01-01')&(ipos['$ Chg OPen to Close']>0)]['$ Chg 
Open to Close'] .describe() 


上 述 代码 生成 图 4-17 的 输出 “。 


count 73.000000 
mean 1.574795 
S 七 Q 3.020735 
min 0.010000 
25% 0.200000 

0.670000 


S50% 
75% 1.340000 
max 20.040000 
Name: 5 Chg Open to Close, dtype: float64 





图 4-17 


ipos[ (ipos['Date']>='2015-01-01')&(ipos['$ Chg OPen to Close']<0)]['$ Chg 
Open to Close'] .describe() 


QD) 译 者 注 : 该 图 中 的 max 和 图 4-15 中 的 max 应 该 一 致 ， 应 该 是 笔 误 。 
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上 述 代 码 生 成 图 4-18 的 输出 “。 


.000000 
.249538 
。381957 
.160000 
.580000 


.820000 
.220000 
.010000 
Open to Close, dtype: float64 





4-18 


所 以 ， 我 们 可 以 看 到 ， 如 果 2015 年 投资 每 一 个 IPO， 我 们 将 会 忙于 投资 147 家 IPO， 
大 约 一 半 使 我 们 挣 钱 ， 而 另 一 半 使 我 们 损失 了 钱 。 整 体 上 还 是 有 利润 的 ， 因 为 盘 利 IPO 的 
收益 最 终 弥 补 了 损失 的 钱 。 当 然 ， 这 里 假设 没有 交易 差额 或 佣金 成 本 ， 在 现实 世界 中 这 些 
都 是 不 可 避免 的 。 然 而 ， 这 显然 不 是 发 家 致富 的 法 宝 ， 因 为 平均 回报 率 低 于 1%。 


”交易 差额 是 指 对 于 目标 股票 ， 你 党 试 买 入 或 卖 出 的 价 
格 和 订单 实际 执行 价格 之 间 的 差异 。 


让 我 们 看 看 是 舍 可 以 使 用 机 器 学 习 来 帮助 改善 这 个 最 基本 的 方法 。 一 个 合理 的 东 略 似 
乎 是 胜 准 图 4-14 中 那 长 长 的 右 尾 ， 所 以 我 们 将 有 聚焦 于 此 。 


4. 2 特征 工程 




















在 交易 开始 后 ， 什 么 会 影响 股票 的 表现 ?最 近 整 体 市 场 的 表现 ， 或 者 是 承销 两 的 威望 
都 可 能 会 影 啊 它 。 也 许 交 易 日 的 星期 几 或 月 份 很 重要 。 在 模型 中 考虑 和 守 括 这 些 因 系 被 称 
为 特征 工程 ， 而 且 特 征 的 建 模 几乎 和 用 于 构建 模型 的 数据 一 样 重要 。 如 末 你 的 特征 疫 有 信 
姑 含 量 ， 那 么 模型 根本 不 会 有 价值 。 

让 我 们 开始 这 个 过 程 ， 添 加 一 些 我 们 觉得 可 能 会 影响 IPO 表现 的 特征 。 

先 从 获取 标 普 500 指数 的 数据 开始 。 这 可 能 是 普通 类 国 市 场 最 好 的 代表 。 我 们 可 以 从 


Yahool Finance 下 载 网 址 是 
https://finance.yahoo.com/d/nhp?s=gs5EGSPC&a=00&b=1&gc=2000&dq=11&e=1 


7&f=2015&g=d。 然 后 ， 我 们 可 以 使 用 pandas 导入 数据 。 














Q) 译 者 注 : 该 图 中 的 min 和 图 4-15 中 的 min 应 该 一 致 ， 可 能 是 笔 误 。 
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sp = pd.read csv(r'/Users/alexcombs/Downloads/spy .csv') 
sp.sort values('Date', inplace=True) 
sp.reset index (drop=True, inplace=True) 

sp 


上 述 代 人 码 生 成 图 4-19 的 输出 。 


| | | 
2000-01-06 1403.449951 1403.449951 
到 





2000-01-07 1400.729980 | 1441.46997 1 
2000-01-10 1441.469971 |1457.599976 
1404.420044 |1498.560053 
1438.560059 1432.250000 


1432.250000 |1454.199951 |1432.250000 | 1449.680054 | 1030400000 | 1449.680054 
lg |2000-01-14 1449.680054 |1473.000000 |1449.680054 |1465.150024 |1085900000 | 1465.150024 


图 4-19 
因为 整体 市 场 在 过 去 一 周 的 表现 会 在 馆 辑 上 影响 某 个 股票 ， 因 此 让 我 们 将 其 添加 到 这 里 
的 DataFrame 中 。 我 们 将 计算 标 普 500 昨日 收盘 价 相对 于 其 七 天 前 收盘 价 的 变化 百分比 。 


def get week chg (ipo dt): 











try: 

day_ ago idx = splspl'Date']==str(ipo dt.date())].index[0] - 1 
week ago idx = sp[lspl'Date']==str(ipo dt.date())].index[0] - 8 
chg = (sp.iloc[day ago idx]['Close'] - \ 

sp.iloc[week ago idx] ['Close'])/(sp.iloc[week ago idx]['Close']) 
return chg * 100 

except: 

print('error', ipo dt.date()) 


ipos['SP Week Change'] = ipos['Date'] .map (get week chg) 

上 述 代码 生成 图 4-20 的 和 输出。 

运行 代码 后 , 系统 提示 我 们 有 几 个 日 期 对 应 的 数据 执行 失 | error 2013-11-]1- 
败 了 ,这 表明 IPO 的 日 期 可 能 存在 一 些 错 误 。 检查 这 些 日 期 相 | error 2015-02-21 
关 的 IPO 发 现 它们 当天 是 关闭 的 状态 。 这 里 是 纠正 错误 的 一 “| error 42013-02-21 
个 示例 和 代码 。 图 4.20 

ipos [ipos['Date']=='2009-08-01'] 


上 述 代码 生成 图 4-21 的 输出 。 

















wNv albbt.com DODODDDDD 





96 





第 4 章 使 用 次 辑 回 归 预 济 IPO 市 场 


收盘 价 和 | 
时 | 开盘 价 相 | 
比 变化 的 
的 变化 | 比例 














» \ 计 字 行 | 
市 | 要 
二 M 
Emdeon 15 
Stanley 


图 4-21 


EM 的 实际 IPO 日 期 是 2009 年 的 8 月 12 日 所 以 将 其 纠正 ， 此 外 ， 经 过 一 番 研 


: 


我 们 也 友 现 了 其 他 错误 数据 的 真正 友 行 日 期 并 做 了 修正 。 


ipos.loc[1175, 'Date'] Pd.to datetime('2009-08-12 ' ) 
ipos.loc[1660, 'Date'] Pd.to datetime('2012-11-20') 
ipos.loc[2251, 'Date'] = pd.to datetime('2015-05-21') 
ipos.loc[2252, 'Date'] = pd.to datetime('2015-05-21') 


再 次 运行 该 函数 ， 它 将 正确 地 湛 加 所 有 友 行 股票 的 一 周 变 化 情况 


ipos['SP Week Change'] = ipos['Date'] .map (get week chg) 


现在 ， 让 我 们 添加 一 项 新 的 指标 ， 即 标准 普尔 500 指数 在 IPO 前 一 天 收盘 时 到 IPO 于 


日 开盘 时 这 个 期 间 内 ， 变 化 的 百分比 。 


def get cto chg(ipo dt): 

try: 

today open idx = splspl'Date']==str (ipo dt.date())] .index[0] 
yday_close idx = splspl'Date']==str(ipo dt.date())].index[0] - 1 
chg = (sp.iloc[today open idx]['Open'] - \ 

sp.iloc[yday close idx]['Close'])/(sp.iloc[yday close idx]['Close']) 
return chg * 100 

except: 

print('error', ipo dt) 

ipos['SP Close to Open Chg Pct'] = ipos['Date'] .map (get cto chg) 


上 述 代 人 码 生 成 图 4-22 的 输出 。 


主 承销 下 首 日 | 1 ， 行 | 和 胡 | 收 基价 和 开 | 村 汪 半天 
/联席 主 承销 ”| 改行 价 | 开盘 价 | 收 般 价 | 训 i 相 | 价 相 此 | 评 全 由 大 | lt 周 变化 到 次 日 开盘 
| 的 恋 的 变化 变化 百分比 


sw oe re 瑟 ， 211 | 0.000000 |-1.126999 2009 oooooo0 


ZGEN 


Lehman 

Brothers/Merrill |12.00 | 12.01 12.05 10.42 0.333056 |0.972911 |10.972911 10.000000 
Lynch 

Salomon Smith 

Barney/Morgan 128.00 |30.05 29.10 |3.93 3.161398 |0.972911 |10.972911 10.000000 
Stanley 


Lehman 





pp, 
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现在 ， 让 我 们 来 整理 承销 商 的 数据 。 这 需要 一 些 工作 量 。 我 们 将 执行 一 系列 的 步骤 。 
首先 ， 为 主 承 销 商 添加 一 列 。 接 下 来 ， 会 对 数据 进行 标准 化 。 最 后 ， 我 们 将 添加 一 列 ， 表 
示 参 与 承销 商 的 总 数 。 


自 完 ， 我 们 通过 数据 中 字符 串 的 拆 分 和 空格 的 删 际 ， 解 析出 主 承销 商 。 


ipos['Lead Mgr'] = ipos['Lead/Joint-Lead Mangager'] .map (lambda x: 
x.split('/')[0]) 
ipos['Lead Mgr'] = ipos['Lead Mgr'] .map (lambda x: x.strip()) 


接 下 来 ， 打 印 出 不 同 的 主 承 销 商 ， 这 样 可 以 看 出 为 了 规范 银行 的 名 称 ， 需 要 进行 多 少 
清理 工作 。 


for n in pd.DataFrame (ipos['Lead Mgr'] .unique(), 
columns=['Name']) .sort('Name')['Name']: 
print (n) 


上 述 代 码 生 成 图 4-23 的 输出 。 


A.G. Edwrads & Sons 

AG Edwards 

AG Edwards & Sons 

AG Edwrads 

Adams Harkness 

Advest 

Aegis Capital 

Aegis Capital Corp 

Aegis Capital Corp. 
Anderson & Strudrick 
Axiom Capital Management 
BB&T Capital Markets 

BMO Capital Markets 

Baird 

Baird, BMO Capital Markets, Janney Montgomery Scott 
Banc of America 

Banc of America Securities 
Barclay Capital 

Barclays 





图 4-23 
有 两 种 方法 可 以 做 到 这 一 点 。 第 一 种 方法 ， 唉 无 疑问 是 两 个 方法 中 更 容易 的 那个 ， 束 
是 相信 我 们 为 你 所 做 的 工作 ， 只 是 复制 和 粘贴 下 面 的 代码 。 另 一 种 方法 是 执行 大 量 返 代 的 
字符 串 部 分 匹配 ， 并 且 由 你 目 己 来 纠正 。 强 烈 建议 使 用 第 一 种 选项 。 

















ipos.loc[ipos['Lead Mgr'] .str.contains('Hambrecht'),'Lead Mgr'] = 'WR 
Hambrecht+Co.' 

ipos.locl[lipos['Lead Mgr'] .str.contains('Edwards'), 'Lead Mgr'] = 'AG 
了 Edwards ' 

IPos. LIoc[IPos['Lead Mgr'] .str.contains('Edwrads'), 'Lead Mgr'] = 'AG 
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了 Edwards ' 
ipos.locl[ipos['Lead Mgr'] .str.contains('Barclay'), 'Lead Mgr'] = 'BarclLays' 
ipos.locl[ipos['Lead Mgr'] .str.contains('Aegis'), 'Lead Mgr'] = 'Aegis 
Capital' 
ipos.loc[ipos['Lead Mgr'] .str.contains('Deutsche'), 'Lead Mgr'] = 'Deutsche 
Bank,' 

ipos.locl[lipos['Lead Mgr'] .str.contains('Suisse'), 'Lead Mgr'] = 'CSFB' 
ipos.loc[ipos['Lead Mgr'] .str.contains('CS.?F'), 'Lead Mgr'] = 'CSFB' 
ipos.loc[ipos['Lead Mgr'] .str.contains('^Early'), 'Lead Mgr'] = 
'EarlyBirdCapital' 

ipos.loc[325,'Lead Mgr'] = 'Maximum Captial' 

ipos.locl[ipos['Lead Mgr'] .str.contains('Keefe'), 'Lead Mgr'] = 'Keefe, 
Bruyette & Woods ' 

ipos.locl[lipos['Lead Mgr'] .str.contains('Stan'), 'Lead Mgr'] = 'Morgan 
Stanley 

ipos.locl[lipos['Lead Mgr'] .str.contains('P. Morg'), 'Lead Mgr'] = 'JP Morgan,' 
ipos.locl[ipos['Lead Mgr'] .str.contains('PM'), 'Lead Mgr'] = 'JP Morgan' 
ipos.loc[ipos['Lead Mgr'] .str.contains('J\.P\.'), 'Lead Mgr'] = 'JP Morgan' 
ipos.loc[ipos['Lead Mgr'] .str.contains('Banc of'), 'Lead Mgr'] = 'Banc of 
America' 


ipos.loc[ipos['Lead Mgr'] .str.contains('Lych'), 'Lead Mgr'] = 'BofA Merrill 


Lynch' 

ipos.loc[ipos['Lead Mgr'] .str.contains('Merrill$'), 'Lead Mgr'] = 'Merrill 
Lynch' 

ipos.loc[ipos['Lead Mgr'] .str.contains('Lymch'), ‘Lead Mgr'] = 'Merrill 
Lynch' 


ipos.loc[ipos['Lead Mgr'] .str.contains('A Merril Lynch'), 'Lead Mgr'] = 
'BofA Merrill Lynch' 


ipos.loc[ipos['Lead Mgr'] .str.contains('Merril '), 'Lead Mgr'] = 'Merrill 
Lynch' 
ipos.loc[ipos['Lead Mgr'] .str.contains('BofAS$'), 'Lead Mgr'] = 'BofA 


Merrill Lynch' 
ipos.loc[ipos['Lead Mgr'] .str.contains('SANDLER'), 'Lead Mgr'] = 'Sandler 
O'neill + Partners' 


ipos.locl[ipos['Lead Mgr'] .str.contains('Sandler'), 'Lead Mgr'] 'Sandler 
O'Neil + Partners' 


ipos.locl[ipos['Lead Mgr'] .str.contains('Renshaw'), 'Lead Mgr'] = 'Rodman & 


Renshaw' 

ipos.locl[ipos['Lead Mgr'] .str.contains('Baird'), 'Lead Mgr'] = 'RW Baird' 
ipos.locl[lipos['Lead Mgr'] .str.contains('Cantor'), 'Lead Mgr'] = 'Cantor 
Fitzgerald' 

ipos.loc[ipos['Lead Mgr'] .str.contains('Goldman'), 'Lead Mgr'] = 'Goldman 
Sachs' 
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ipos.locl[lipos['Lead Mgr'] .str.contains('Bear'), 'Lead Mgr'] = 'Bear 
Steazns ' 

IPos. LIoc[IPos['Lead Mgr'] .str.contains('BoA'), 'Lead Mgr'] = 'BofA Merrill 
Lynch' 

ipos.loc[ipos['Lead Mgr'] .str.contains('Broadband'), 'Lead Mgr'] = 
'Broadband Capital' 

ipos.loc[ipos['Lead Mgr'] .str.contains('Davidson'), 'Lead Mgr'] = 'DA 
Davidson' 

ipos.loc[ipos['Lead Mgr'] .str.contains('Feltl1'), 'Lead Mgr'] = 'Feltl & Co.' 


ipos.locl[lipos['Lead Mgr'] .str.contains('China'), 'Lead Mgr'] = 'China 
International' 

ipos.loc[ipos['Lead Mgr'] .str.contains('Cit'), ‘Lead Mgr'] = 'Citigroup' 
ipos.loc[ipos['Lead Mgr'] .str.contains('Ferris'), 'Lead Mgr'] = 'Ferris 


Baker Watts' 

ipos.loc[ipos['Lead Mgr'] .str.contains('Friedman|Freidman|FBR'), 'Lead 
Mgr'] = 'Friedman Billings Ramsey' 

ipos.loc[ipos['Lead Mgr'] .str.contains('^I-'), 'Lead Mgr'] = 'I-Bankers,' 
ipos.locl[ipos['Lead Mgr'] .str.contains('Gunn'), 'Lead Mgr'] = 'Gunn ALLen' 
ipos.locl[lipos['Lead Mgr'] .str.contains('Jeffer'), 'Lead Mgr'] = 'Jefferies' 
ipos.locl[ipos['Lead Mgr'] .str.contains('Oppen'), 'Lead Mgr'] = 


'Oppenheimer' 

ipos.loc[lipos['Lead Mgr'] .str.contains('JMP'), 'Lead Mgr'] = 'JMP 
Securities' 

ipos.loc[ipos['Lead Mgr'] .str.contains('Rice'), 'Lead Mgr'] = 'Johnson 
Rice' 


ipos.locl[ipos['Lead Mgr'] .str.contains('Ladenburg'), 'Lead Mgr'] = 
'Ladenburg Thalmann,' 


ipos.locl[lipos['Lead Mgr'] .str.contains('Piper'), 'Lead Mgr'] = 'Piper 
Jaffray' 

ipos.loc[ipos['Lead Mgr'] .str.contains('Pali'), 'Lead Mgr'] = 'Pali 
Capital' 

ipos.loc[ipos['Lead Mgr'] .str.contains('Paulson'), 'Lead Mgr'] = 'Paulson 
Investment Co.' 

ipos.loc[ipos['Lead Mgr'] .str.contains('Roth'), 'Lead Mgr'] = 'Roth 
Capital' 

ipos.locl[lipos['Lead Mgr'] .str.contains('Stifel'), ‘Lead Mgr'] = 'Stifel 
Nicolaus' 
ipos.loc[ipos['Lead Mgr'] .str.contains('SunTrust'), 'Lead Mgr'] = 'SunTrust 
Robinson,' 

ipos.locl[ipos['Lead Mgr'] .str.contains('Wachovia'), 'Lead Mgr'] = 
'Wachovia' 

ipos.loc[ipos['Lead Mgr'] .str.contains('Wedbush'), 'Lead Mgr'] = 'Wedbush 
Morgan 
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IPos. Joc[IPos['Lead Mgr'] .str.contains('Blair'), 'Lead Mgr'] = 'William 
Blair' 
ipos.locl[ipos['Lead Mgr'] .str.contains ('Wunderlich'), 'Lead Mgr'] 


'Wunderlich,' 
ipos.locl[ipos['Lead Mgr'] .str.contains('Max'), 'Lead Mgr'] = 'Maxim Group' 
ipos.locl[ipos['Lead Mgr'] .str.contains('CIBC'), 'Lead Mgr'] = 'CIBC' 


ipos.locl[ipos['Lead Mgr'] .str.contains('CRT'), 'Lead Mgr'] = 'CRT Capital' 
ipos.locl[ipos['Lead Mgr'] .str.contains('HCF'),'Lead Mgr'] = 'HCFP Brenner' 
ipos.locl[ipos['Lead Mgr'] .str.contains('Cohen'), 'Lead Mgr'] = 'Cohen & Co.' 


ipos.locl[lipos['Lead Mgr'] .str.contains('Cowen'), 'Lead Mgr'] = 'Cowen & Co.' 
ipos.loc[ipos['Lead Mgr'] .str.contains('Leerink'), 'Lead Mgr'] = 'Leerink 
Partners' 


ipos.loc[ipos['Lead Mgr'] .str.contains('Lynch\xca'), 'Lead Mgr'] = 'Merrill 
Lynch' 


此 过 程 完 成 之 后 ， 你 可 以 再 次 运行 以 下 代码 来 但 看 更 新 后 的 列表 。 


for n in pd.DataFrame (ipos['Lead Mgr'] .unique(), 
columns=['Name']) .sort values('Name')['Name']: 


print (n) 
上 述 代码 生成 图 4-24 的 输出 。 


AG Edwards 

Adams Harkness 

Advest 

Aegis Capital 

Anderson & Strudrick 
Axiom Capital Management 
BB&T Capital Markets 

BMO Capital Markets 

Banc of America 


Barclays 


Bear Stearns 

BofA Merrill Lynch 
Broadband Capital 
Burnham Securities 
C&CO 

C.E. Unterberg, Towbin 
CIBC 

CRT Capital 

CSFB 

Canaccord Genuity 





图 4-24 





我 们 可 以 看 到 ， 列 表现 在 是 整齐 划一 的 了 。 这 点 完成 后 ， 我 们 将 增加 承销 商 的 数量 。 


ipos['Total Underwriters'] =ipos['Lead/Joint-Lead Mangager'] .map (lambda x: 
len(x.split('/'))) 
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接 下 来 ， 我 们 将 评 加 几 个 日 期 相关 的 特征 。 这 里 加 入 星期 几 和 月 份 。 


ipos['Week Day'] = IPos['Date'].dqat.dayofweek .map({0:'Mon'，1L:'Tues'， 
2:'Wed' 人 

3:'Thurs', 4:'Fri', 5:'Sat', 6:'Sun'}) 

ipos['Month'] = ipos['Date'] .map (lambda x: x.month) 

ipos['Month'] = ipos['Month'] .map({l1:'Jan', 2:'Feb', 3:'Mar', 4:'Apr', 
5:'May', 6:'Jun',7:'Jul',\ 

8:'Aug', 9:'Sep', 10:'Oct', 1l1:'Nov', 12:'Dec'}) 

ipos 


上 述 代 码 生 成 图 4-25 的 输出 。 


_ 标 普 在 发 
采 寺 各 | 收盘 价 和 开 村 省- 周 | 条 贡 ，| 行道 
盘 价 相 比 变 时 到 | 主 承销 星期 几 | 月 份 
J 变化 
化 省 分 比 


0.000000 1.126333 |-1.126333 |0.000000 |Bear se 


Lehman 
0.333056 0.972911 |0.972911 10.000000 
Brothers 
Salomon Smith 
3.161398 |0.972911 10.972911 |0.000000 
Barney 


图 4-25 


如 果 所 有 的 事情 都 是 按 预 期 进行 ， 我 们 的 DataFrame 应 该 看 起 来 像 图 4-25 那样 。 我 














们 现在 补充 几 个 最 终 的 特征 ， 涉 及 发 行 价 和 开盘 价 之 间 的 变化 ， 以 及 发 行 价 和 收盘 价 之 间 
的 变化 。 
ipos['Gap Open Pct'] = (ipos['$ Chg Opening'] .astype('float')/ipos['Opening 
Price'] .astype('float')) * 100 
ipos['Open to Close Pct'] = (ipos['$ Chg Close'] .astype('float') -\ 
ipos['$ Chg Opening'] .astype('float'))/\ 
ipos['Opening Price'] .astype('float') * 100 


现在 ， 特 征 准 备 束 绒 了。 如 琳 过 到 我 们 认为 有 用 的 、 可 能 会 改善 模型 的 数据 ， 我 们 总 
是 可 以 加 入 更 多 的 特征 。 不 过 ， 在 这 里 让 我 们 以 这 些 特征 开始 。 


将 这 些 特征 提供 给 模型 之 前 ， 我 们 需要 考虑 选择 哪些 特征 。 A Ns 人 
在 添加 时 特征 时 “ 讷 露 ” 了 信息 。 这 是 一 个 利 见 的 错误 ， 当 问 模 型 提供 信息 的 时 候 ， 上 所 用 
的 数据 在 当时 其 实 是 无 法 获得 的 ， 这 时 候 就 会 发 生 信 息 “ 泄 露 ”。 例 如 ， 将 收盘 从 添加 到 我 
们 的 模型 将 使 结束 完全 无 效 。 如 朱 这 样 做 ， 实 际 上 我 们 是 为 模型 皖 供 了 它 试图 了 预测 的 答 守 。 
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通常 ， 泄 圳 的 错误 比 这 个 例子 更 微妙 一 些 ， 但 无 论 如 何 ， 我 们 需要 注意 这 点 。 
我 们 将 添加 以 下 特征 。 
e 月 份 (Month)。 
e 必 期 几 (Week Day)。 
e 主 要 承销 疝 (Lead Megr)。 
。 承 销 商 总 数 〈Total Underwriters ) 。 
e 发 行 价 到 开盘 价 的 差距 百分比 (Gap Open Pct)。 
发 行 价 到 开盘 价 的 美元 变化 量 ($ Chg Opening)。 
。 发 行 价 (Offer Price)。 
e 开 盘 价 (Opening Price)。 
e 标 准 普尔 指数 从 收盘 到 开盘 的 变化 百分比 〈SP Close to Open Chg Pct)。 
e 标 准 普 尔 指 数 前 一 周 的 变化 〈SP Week Change )。 
完善 模型 所 需 的 全 部 特征 后 ， 我 们 将 其 准备 好 以 供 模型 使 用 。 我 们 将 使 用 Patsy 库 。 


如 果 需 要， 可 以 使 用 pip 安 站 Patsy。Patsy 以 原始 的 形式 获取 数据 ， 并 将 其 转换 为 适用 
于 统计 模型 构建 的 矩阵 。 

from patsy import dmatrix 

X = dmatrix('Month + Q("'Week Day") + Q("Total Underwriters") + Q("Gap Open 

Pct") + Q("$ Chg Opening") +\ 

Q("Lead Mgr") + Q("Offer Price") + Q("Opening Price") +\ 

Q("SP Close to Open Chg Pct") + Q("SP Week Change")', data=ipos, 

return type='dataframe') 

X 


上 述 代 人 码 生成 图 4-26 的 输出 。 


我 们 可 以 看 到 Patsy 已 经 将 分 类 型 数据 重新 配置 为 多 列 ， 而 将 连续 的 数据 你 和 存在 蛙 个 
列 中 。 这 种 操作 被 称 为 虚构 编码 。 在 这 种 格式 中 ， 每 个 月 部 会 得 到 属于 目 己 的 列 。 对 于 每 
个 代理 而 言 同样 如 此 。 例 如 ， 如 果 特 定 的 IPO 样 例 〈 某 一 行 ) 在 May 这 个 月 发 行 ， 那 么 它 
在 May 这 个 列 的 值 吏 为 1， 而 该 行 所 有 其 他 月 份 的 列 值 都 为 0。 对 于 分 关 型 的 特征 ， 总 是 
有 n-1 个 特征 列 。 被 排除 的 列 成 为 了 基线 ， 而 其 他 的 将 和 这 个 基线 进行 比较 。 


最 后 ，Patsy 还 添加 了 一 个 截 距 列 。 这 和 回归 模型 正 滑 运行 所 需 的 第 一 个 列 。 
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Q("Lead Q("Lead 
Mgr") Mgr") 





cs 
图 4-26 


这 步 完 成 后 ， 我 们 将 进入 建 模 阶 段 。 


4.3 二 元 分 类 











我 们 试图 预测 IPO 是 否 值得 购买 ， 而 不 是 答 试 准确 地 预测 第 一 天 的 总 收益 是 多 少 。 这 
里 ， 我 们 应 该 指出 这 里 所 做 的 不 是 投资 建议 ， 其 
目的 只 是 为 了 说 明 茶 个 和 案例。 请 不 要 使 用 这 个 醒 
型 开始 随意 地 进行 IPO 交易 。 后 果 会 非常 严重 。 
现在 ， 为 了 预测 三 进 制 的 结果 ( 即 1 或 0， 是 或 
个), 我 们 将 从 称 为 风 辑 回归 (logistic regression ) 
的 模型 开始 。 泌 辑 回归 使 用 了 逻辑 图 数 。 这 是 很 
理想 的 选择 ,因为 馆 辑 回归 有 几 个 数学 属性 , 使 
其 易于 使 用 ， 如 图 4-27 所 示 。 

由 于 逻辑 函数 的 形式 ， 它 特别 适合 于 提供 概 
率 的 估计 ， 以 及 依据 这 些 估计 的 二 进 制 响应 。 任 何 大 于 0.5 的 被 分 类 为 1， 而 任何 低 于 0.5 
的 被 分 类 为 0。 这 些 1 和 0 可 以 对 应 任何 我 们 想 要 分 类 的 事物 ， 不 过 在 这 个 应 用 程序 中 ， 
它 将 决定 我 们 对 于 发 行 股 ， 是 美 入 (1) 还 十 不 买 入 0)。 

继续 下 一 步 ， 在 我 们 的 数据 上 使 用 这 个 模型 。 我 们 通过 有 点 不 同 寻 第 的 方式 ， 将 数据 
进行 拆 分 。 机 器 学 习 模 型 的 标准 做 法 是 随机 地 决定 哪些 实例 作为 模型 的 训练 数据 ， 而 哪些 
实例 被 用 作 测 斌 数据。 但 是 ， 由 于 这 里 的 数据 是 基于 时 间 的 , 因此 我 们 将 使 用 除 今年 42015 
年 ) 之 外 的 所 有 数据 进行 训练 。 然 后 在 2015 年 年 初 至 今 的 数据 上 进行 测试 。 
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# 2188 是 第 一 个 2015 年 数据 的 索引 号 ， 数 据 是 按照 日 期 排序 的 

xX train, X test = X[:2188], X[2188:] 

y_train = ipos['$ Chg Open to Close'][:2188] .map (lambda x: 1 if x >= 1 else 0) 
y_test = ipos['$ Chg Open to Close'] [2188:] .map (lambda x: 1 if x >= 1 else 0) 


使 用 上 面 的 代码 ， 我 们 将 数据 分 成 训练 集 和 测试 集 。 请 注意 我 们 主观 地 为 正 同 结果 设 
置 了 1 美元 的 国 值 。 这 是 为 了 员 彻 这 个 策略 : 瞄准 长 尾 中 的 赢家 ， 而 不 是 任何 收益 大 于 0 
的 收盘 。 

现在 ， 我 们 将 拟 合 访 模型， 方法 如 下 所 示 。 


clf = linear model .LogisticRegression () 





clf.fit(X train, y train) 
上 上面 的 代码 将 生成 图 4-28 的 输出 。 


LogisticRegression(C=1.0, class weight=None, dual=False, fit intercept=True, 
intercept scaling=1, max iter=100, multi class='ovr', n jobs=l， 


penalty='12', random state=None, solver='liblinear', tol=0.0001, 
verbose=0, warm start=False) 





4-28 


我 们 现在 可 以 在 预 留 的 2015 年 数据 上 ， 评 估 模 型 的 表现 。 

clf.score(X test, y_ test) 

上 面 的 代码 将 生成 图 4-29 的 输出 。 

从 图 4-29 中 ， 我 们 可 以 看 出 82% 的 预测 是 准确 的 。 对 于 2015 年 而 言 ， 这 当然 是 优 于 
我 们 基本 策略 的 预 出 ， 但 这 也 可 能 是 市 有 误导 性 的 结果 ， 因 为 实际 上 获 益 超过 ] 美元 的 卫 O， 
其 比例 是 非常 低 的 。 这 意味 看 对 于 所 有 IPO 都 将 其 预测 猜测 为 0， 也 会 给 我 们 相同 的 结果 ， 
不 过 ， 这 里 让 我 们 比较 一 下 两 者 的 区 别 。 

自 先 我 们 的 基本 策略 如 下 。 

ipos[ (ipos['Date']>='2015-01-01')]['$ Chg Open to Close'] .describe() 


上 述 代 人 码 生成 图 4-30 的 输出 。 








000000 
.229524 
.686850 


:160000 
.645000 
.000000 
.665000 
0.8231292517006803 | 最 大 什 .040000 





图 4-29 图 4-30 
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接 下 来 ， 我 们 将 处 理 预 负 的 结 采 。 首 先 使 用 结 末 设置 一 个 数据 框 ， 然 后 输出 它们 。 


pred label = clf.predict(X test) 
results=[] 





for pl, tl1, idx, chg in zipl(pred label, y test, y test.index, 
ipos.ix[y test.index]['$ Chg Open to Close']): 

if pl == tl1: 

results.append([idx, chg, pl, tl1, 1]) 

else: 

results.append([idx, chg, pl, tl1l, 0]) 

rf = pd.DataFrame (results, columns=['index', '$ chg', 'predicted', 
'actual', 'correct']) 

rf 


上 述 代 人 码 生 成 图 4-31 的 输出 。 
rf[rf['predicted']==1]['$ chg'] .describe() 


上 述 代 码 生 成 图 4-32 的 输出 。 


上 | 变化 名 , 本 下 
标准 差 .512992 
6 |2e4 10 | |1 || 遇 全 -2.8oooo0 
25% .080000 
最 大 值 ,040000 
9 -0. 1 


0 Name: $ chg, dtype: floaté6d 

















图 4-31 图 4-32 


所 以 ， 总 数 从 147 次 买 入 降 到 6 次 买 入 。 我 们 的 平均 值 从 0.23 美元 上 涨 到 2.99 美元 ， 
但 我 们 的 中 位 数 从 0 美元 下 降 到 -0.02 美元 。 让 我 们 看 看 回报 的 图 表 。 

fig, ax = plt.subplots (figsize=(15,10)) 

rf[rf['predicted']==1]['$ chg'] .plot (kind='bar') 

ax.set title('Model Predicted Buys', y=1.01) 

ax.set ylabel('$ Change Open to Close') 








ax.set xlabel('Index') 


上 述 代 人 码 生成 图 4-33 的 输出 。 
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模型 预测 的 买 入 





> 
机 
这 
萌 
学 
而 
基 
上 








图 4-33 


从 图 4-33 来 看 ， 似 乎 我 们 局 得 了 年 中 一 次 很 大 的 收益 ， 以 及 几 次 较 小 的 收益 和 损失 。 
我 们 对 和 模型 的 测试 还 不 是 很 充分 。 我 们 可 能 只 是 非 芝 幸运 地 抓 住 了 这 次 胜利 。 还 需要 评 佑 
模型 的 鲁 棒 性 。 我 们 可 以 通过 几 个 方面 来 实现 这 点 ， 这 里 仅仅 做 两 件 事情 。 首 先 ， 我 们 将 
闵 值 从 1 美元 降 至 0.25 美元 ， 看 看 模型 怎么 反应 。 

xX train, X test = X[:2188], X[2188:] 

y_train = ipos['$ Chg OPen to Close'][:2188] .map (lambda x: 1 if x >= .25 else 0) 


y_test = ipos['$ Chg Open to Close'] [2188:] .map (lambda x: 1 if x >= .25 else 0) 
clf = linear model .LogisticRegression () 




















clf.fit(X train, y train) 
clf.score(X test, y_ test) 


现在 我 们 来 检查 一 下 结 ee 
pred label = clf.predict(X test) 

results=[] 

for pl, tl1, idx, chg in zipl(pred label, y test, y test.index, 
ipos.ix[y test.index]['$ Chg Open to Close']): 

if pl == tl1: 

results.append([idx, chg, pl, tl1, 1]) 

else: 
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zeSulLts .apPend([Idqx，chg，PL，tL，0]) 
rf = pd.DataFrame (results, columns=['index', '$ chg', 'predicted', 
'actual', 'correct']) 
rf[rf['predicted']==1]['$ chg'] .describe() 


上 述 代 码 生 成 图 4-35 的 输出 。 


从 结 末 来 看 ， 我 们 的 准确 率 和 平均 值 部 下 降 了 。 但 是 ， 我 们 的 统计 数量 从 6 上 升 到 了 
25， 而 且 仍 然 远 蜗 于 基础 集 略 的 结果 。 让 我 们 再 做 一 个 测试 。 现 在 将 2014 年 的 数据 从 训 禾 
数据 中 删除 ， 并 将 其 加 入 测试 数据 中 。 

xX train, X test = X[:1900], X[1900:] 

y_train = ipos['$ Chg Open to Close'][:1900] .map (lambda x: 1 if x >= .25 else 0) 


y_test = ipos['$ Chg Open to Close'] [1900:] .map (lambda x: 1 if x >= .25 else 0) 
clf = linear model .LogisticRegression () 





clf.fit(X train, y train) 
clf.score(X test, y_ test) 


上 述 代 码 生 成 图 4-36 的 输出 。 


count 25.000000 
mean .820800 
S 七 Q .520852 
min .160000 


25% .000000 
50% .090000 
75% .120000 
max 20.040000 
Name: 5 chg, dtype: flLoat64 





0.62068965517241381 


图 4-35 图 4-36 


再 钦 检查 结 


pred label = clf.predict(X test) 
results=[] 
for pl, tl1l, idx, chg in zipl(pred label, y test, y test.index, 
ipos.ix[y test.index]['$ Chg Open to Close']): 
if pl == tl1: 
results.append([idx, chg, pl, tl1, 1]) 
else: 
results.append([idx, chg, pl, tl1, 0]) 
rf = pd.DataFrame (results, columns=['index', '$ chg', 'predicted', 
'actual', 'correct']) 
rf[rf['predicted']==1]['$ chg'] .describe() 


上 述 代码 生成 图 4-37 的 输出 。 
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.000000 
.876944 


: floaté64 





随 着 2014 年 的 数据 放 入 测试 集合 , 我 们 可 以 看 到 虽然 平均 值 有 所 下 降 , 但 模型 的 表现 
仍然 要 好 于 投资 每 一 笔 IPO 的 简单 方法 ， 有 具体 如 表 4-1 所 示 。 


表 4-1 





2015 nalve 147 








现在 让 我 们 继续 观察 ， 模 型 中 哪些 特征 是 最 重要 的 。 
4.4 特征 的 重要 性 


哪些 特征 增加 了 一 个 肥 行 股 未 来 成 功 的 概率 ? 不 蔷 的 是 ， 对 于 这 个 问题 没有 简单 的 答 
案 。 不 过 ， 我 们 将 探讨 两 种 方法 ， 来 评估 这 一 点 。 由 于 我 们 建立 模型 时 采用 的 是 多 辑 回 归 ， 
所 以 可 以 观察 每 个 特征 参数 的 相关 系数 。 请 记 住 馆 辑 函 数 使 用 的 是 以 下 形式 。 
In(p/1-p) = Bot Bix 
这 里 ，p 表示 正 辣 结果 的 概率 ，Bo 是 截 距 ，B1 是 特征 的 系数 。 一 旦 我 们 拟 合 了 模型 ， 
就 可 以 检查 这 些 系数 。 现 在 立即 获取 它们 。 


tf fv = pd.DataFrame (X train.columns, clf.coef .T) .reset index () 














fv.columns = ['Coef', 'Feature'] 
fv.sort values('Coef', ascending=0) .reset index (drop=True) 
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上 述 代码 生成 图 4-38 的 输出 。 

对 于 分 类 型 的 特征 ， 特 征 系数 上 的 正 符 号 告诉 我 们 当 这 个 特征 存在 时 ， 相 对 于 基线 而 
言 它 增加 了 正 同 结束 的 概 靳 。 对 于 连续 性 的 特征 ， 正 号 表示 该 特征 值 的 增加 ， 会 导致 正 同 
结 末 的 概率 增加 。 系 数 的 大 小 告诉 我 们 概率 增加 的 幅度 。 让 我 们 来 看 看 星期 几 这 个 特征 。 

fv[lfv['Feature'] .str.contains('Week Day ') ] 


上 述 代码 生成 图 4-39 的 输出 。 


ceo rm 
国生 
1 |1ozze47 | Q("Lead Mgr")[T.Morgan Keegan] 
oem 
3 |0.815448 | Q("Lead Mgr")[T.China International] 








mm | mm | ~ 
Ne sw 


~— 
MN 


osoesos |o 
[3 
[ZE 


[T.Merrill Lynch] 


Sy 


"Lead Mgr" 


"Lead Mgr")[T.Burnham Securities] 


Am | mm 


"Lead Mgr")[T.Anderson & Strudrick] 


see | sw 


0.595898 |Q("Lead Mgr")[T.FIG Partners] 
0.538498 |Q("Lead Mgr")[T.Sanders Morris Harris] 


4-38 图 4-39 


从 图 4-38 中 ， 我们 可 以 看 出 没有 星期 五 。 这 意味 着 星期 五 是 所 有 其 他 同类 特征 用 于 比 
较 的 基线 。 我 们 也 看 到 了 根据 这 里 的 模型 ， 周 四 增加 了 IPO 成 功 的 几率 。 

重要 的 是 ， 系 数 并 不 代表 相对 于 基线 ， 和 概率 实际 增加 了 多 少 。 为 了 得 到 这 个 值 ， 我 们 
必须 取 其 指数 。 相 对 于 周 五 ， 周 四 概率 的 增加 为 e(0.053885) = 1.055。 这 意味 着 如 果 保 持 所 
有 其 他 因素 不 变 , 周 四 出 现 一 个 成 功 IPO 的 可 能 性 比 星期 五 的 高 出 5.5%。 我 们 也 可 以 看 到 
对 于 IPO 而 言 ， 星 期 一 是 最 糟糕 的 一 天 ，e(-0.132437) = 0.876， 也 就 是 出 现成 功 IPO 的 概 
率 下 降 约 12.4%。 

回 到 特征 的 重要 性 ， 你 很 可 能 认为 ,在 这 个 时 候 可 以 拿 出 具有 最 大 正 系数 的 那些 特征 ， 
将 它们 扔 到 模型 里 ， 然 后 你 就 会 拥有 主宰 新 股市 场 的 一 切 了 。 别 急 着 下 结论 。 


让 我 们 看 看 基于 正 系 数 大 小 的 前 两 个 特征 。 
ipos[ipos['Lead Mgr'] .str.contains ('Keegan|Towbin')] 


上 述 代 码 生 成 图 4-40 的 输出 。 


Wy 
Ne 


~— 
— 





13 | 0.053885 
15 | -0.039074 | Q("Week Day")[T.Wed] 


rn 
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| 标 普 在 发 
上 承 外 首 日 : 价 | | 收盘 价 | 收盘 价 和 开 | 。 标 i 行 前 一 天 
主 承 销 发 行 价 | 开盘 价 | 收 硕 价 行 和 开盘 | 租价 相 比 变 收盘 到 次 
/联席 主 承销 变 估 胃 毕 | 化 的 比例 | 变化 | 日 开盘 变 
的 变化 化 百分比 

James 


Advanced C.E. Unterberg, 
Life ADLS |Towbin/ThinkEquity | 5.0 19.284294 | 1.777992 |0.000000 
4 | Sciences Partners 
2007- | Rosetta C.E. Unterberg, 
884 ROSG ?7.0 7.02 7.3e |4.57 |0.02 0.32 0.30 [4.273504 |0.363086 |-0.010330 
02-26 | Genomics Towbin 
2011- |Fidus 
1467 FDUS |Morgan Keegan 15.0 |14.75 15.00 |0.00 |-0.25 0.00 |...|0.25 |1.694915 |-3.693126 |-0.003091 
06-22 |Investment 


图 4-40 





我 们 的 前 两 个 特征 代表 了 四 次 IPO 的 总 和 。 这 就 是 为 什么 很 难 从 逻辑 回归 模型 提取 信 
恩 ， 特 别 是 这 么 复杂 的 模型 。 


然而 ， 并 不 是 没有 任何 希望 了 。 我 们 可 以 利用 夯 一 种 称 为 随机 秩 林 分 关 需 的 模型 ， 来 
获得 重 0 深入 说 明 这 个 模型 是 如 何 运 作 的 ， 但 它 会 给 出 和 效 辑 回归 柑 
型 相似 的 结果 ， 此 外 ， 它 还 将 附 市 提供 一 个 非常 好 的 电 结 ， 告 诉 我 们 哪些 特征 对 正 问 结 来 
的 影响 最 大 。 


使 用 与 前 面相 同 的 训练 和 调试 数据 集 ， 我 们 将 拟 合 随机 森林 分 类 需 。 


clf rf = RandomForestClassifier(n estimators=1000) 
clf rf.fit(X train, y train) 
£f importances = clf rf.feature importances 








f names = X train 

ft std= np.std([tree.feature importances for tree in clf rf.estimators ]， 
axis=0) 

zz = Zip(f importances, f names, f£ _ std) 

ZZS = sorted(zz, key=lambda x: x[0], reverse=True) 

imps = [x[0] for x in zzs[:20]] 

labels = [x[l1] for x in zzs[:20]] 

errs = [x[2] for x in zzs[:20]] 

plt.subplots (figsize=(15,10)) 

plt.bar (ange (20), imps, color="r", yerr=errs, align="center") 
plt.xticks (range (20), labels, rotation=-70); 


上 述 代码 生成 图 4-41 的 输出 。 
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图 4-41 


这 里 的 输出 癌 我 们 提供 了 一 个 包含 每 个 特征 误差 条 的 排序 列表 ， 用 于 表明 特征 的 重要 
性 。 观 察 这 份 列表 ， 以 “gap opening percentage” 和 “dollar change from opening” 开 头 的 排 
序 看 上 去 非常 合理 。 





4.5 小 结 


本 章 我 们 已 经 讨论 了 很 多 方面 的 内 容 ， 但 只 是 简单 地 了 解 了 如 何 构建 这 关 模 型 。 币 望 
你 已 经 更 好 地 理解 了 建 模 的 过 程 ， 从 清理 数据 ， 到 进行 特征 工程 ， 到 测试 数据 。 和 希望 你 可 
以 使 用 这 些 信息 目 行 扩展 模型 并 加 以 改进 。 

在 下 一 半 中 ， 我 们 将 注意 力 转 同 为 一 个 不 同 的 领域 ， 也 就 是 从 数值 型 数据 切换 a 到 基于 
文本 的 数据 。 
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我 很 爱 阅 读 。 甚 至 可 以 说 有 些 狂热 。 兽 经 有 些 日 子 ， 我 仔细 阅读 了 上 百 篇 的 文章 。 尺 
党 如 此 ， 我 还 是 经 和 常 友 现 日 己 读 不 完 搜 索 到 的 信息 。 我 忆 是 怀疑 目 己 错过 了 一 些 有 趣 的 事 
情 ， 从 而 导致 知识 库 中 永远 存在 一 些 空白 ! 


如 果 你 患 有 类 似 的 钙 状 ， 不 要 害 介 ， 因 为 在 本 重 中 ， 我 要 揭露 一 个 简单 的 等 门 ， 瑚 助 
你 找到 想 要 阅读 的 所 有 了 文章， 同时 让 你 避免 在 大 量 不 感 兴 趣 的 内 容 上 浪费 时 间 。 


在 这 一 草 的 结尾 ， 你 将 学 会 如 何 构建 一 个 能 理解 你 对 新 闻 喜 好 的 系统 ， 并 每 天 问 你 友 
送 一 个 私人 定制 的 新 闻 通 讯 。 


下 列 是 我 们 将 在 本 章 涵 新 的 内 容 。 

。 使 用 Pocket 应 用 程序 创建 监督 训练 的 集合 。 
e 利 用 Pocket API 来 获取 故事 。 

e。 使 用 smbedq.1LIyAPI 来 提取 故事 主体 。 

。 上 自然 语言 处 理 的 基础 。 

。 文 持 问 量 机 。 

eIFTTT 与 RSS 源 以 及 Google 表单 的 集成 。 
。 建 也 每 日 的 个 性 化 新 闻 通 讯 。 


5.1 使 用 Pocket 应 用 程序 ， 创 建 一 个 监督 训练 的 集合 


























在 我 们 可 以 创建 自己 对 新 闻 稳 的 可 好 模型 之 前 ， 需 要 用 于 训练 的 数据 。 这 些 训练 数据 


ww ai bbt.com DODODDDDD 





5.1 使 用 Pocket 应 用 程序 ， 创 建 一 个 监督 训练 的 集合 113 


将 锐 输 入 到 我 们 的 模型 中 ， 以 教导 该 模型 区 分 我 们 感 兴趣 的 和 不 感 兴趣 的 文章 。 为 了 构建 
这 个 语料库 ， 我 们 需要 标注 大 量 与 这 些 兴 趣 相关 的 文章 。 对 于 每 扁 文 草 ， 我 们 将 其 标记 为 
“y” 或 “n” 这 将 指示 该 文章 是 否 应 该 出 现在 发 送 给 我 们 的 每 日 摘要 中 。 

为 了 简化 这 个 过 程 ， 我 们 将 使 用 Pocket 应 用 程序 。Pocket 是 一 个 允许 你 你 和 存 故事 以 供 
稍 后 阅读 的 应 用 程序 。 你 只 需 安 装 浏 览 囊 扩展 插件 ， 然 后 当 和 希望 保存 故 事 的 时 候 ， 单 击 浏 
响 郁 工具 栏 中 的 Pocket 图 标 。 这 搞 文 草 束 被 保 存 到 了 你 的 个 人 资料 库 。 对 于 我 们 的 目的 而 
言 ，Pocket 一 个 强大 的 功能 是 它 还 能 够 你 存 你 所 选择 的 标签 。 我 们 将 使 用 此 功能 ， 将 感 兴 
趣 的 文章 标记 为 “y”， 而 不 感 兴 趣 的 文章 标记 为 “n ”。 


5.1.1 安装 Pocket 的 Chrome 扩展 程序 

















我 们 在 这 里 使 用 Google Chrome， 其 他 浏览 器 应 该 类 似 。 对 于 Chrome， 进 入 Google App 
Store， 然 后 查找 Extensions 部 分 ， 如 图 5-1 所 示 。 


有 
offered by getpocket.com : 全 available for Android Get ity> productivity 


Pocket Extension for Chrome - The best way to save articles, videos and more 雄 庚 次 次 启 (5360) 


Pocket 





Ss] 





单 击 蓝 色 的 Add to Chrome 按钮 。 如 果 你 已 经 有 一 个 Pocket 账户 了 ， 那 么 请 登录 ， 如 
果 你 还 没有 账户 ， 请 继续 注册 (人 免费 )。 一 旦 完成 ， 你 应 该 可 以 看 到 浏览 器 右上 角 的 Pocket 
图 标 。 图 标 将 变 灰 ， 不 过 一 旦 有 你 想 要 保存 的 文章 ， 驶 可 以 单 击 它 。 文 章 保存 之 后 ， 它 惑 
会 变 成 红色 。 

如 图 5-2 所 示 ， 在 右上 角 可 以 看 到 灰色 的 图 
标 。 当 图 标 被 单 击 时 ， 它 变 为 红色 ， 表 示 文 章 已 
经 被 保存 。 52 

现在 有 趣 的 部 分 开始 了 ! 开始 保存 所 有 你 看 到 的 文章 。 对 于 有 趣 的 那些 打上 “y” 的 
标签 ， 对 于 无 趣 的 那些 打上 “n” 的 标签 。 这 需要 一 点 工作 量 。 监 督学 习 最 终结 果 的 好 坏 
取决 于 你 的 训练 集 ， 所 以 你 圾 要 标记 数 百 篇 文章 来 获得 好 的 效果 。 如 果 在 保存 某 篇 文章 
时 你 瑟 记 给 它 打 标 答 了 ， 那 么 你 可 以 去 这 个 网 站 对 其 进行 标记 : 
http://www.get.pocket.com。 





We Page Saved 
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5.1.2 使 用 Pocket API 来 检索 故事 


现在 你 已 经 很 勤奋 地 将 文章 都 保存 到 了 了 Pocket， 下 一 步 是 检索 它们 。 为 了 实现 这 一 点 ， 
我 们 将 使 用 Pocket API。 你 可 以 在 https://getpocket.com/developer/apps/new 
注册 一 个 新 账户 “。 如 图 5-3 所 示 ， 单 击 左上 角 的 Create New App 并 填写 详细 信息 以 获取 你 
的 API 密 铀 。 请 务必 选择 所 有 的 权限 ， 这 样 你 才 可 以 深 加 、 更 改 和 检索 文章 。 


DD O C Ket How to Save Blog Support My List 


APPS 
My Apps 


co Create an Application 


Application Name: 
DOCUMENTATION This is the name of your application that will be displayed to users. 80 character max. 
Add 
Modify 
Remeve Application Description: 
Authentication 
Objective-C SDK 
Article View API 
Preferences API 


This is the description of your application that will be displayed to users. 120 character max. 


Permissions: 
Please Select one or more permissions for your application below. 

GETTING STARTED Important: You cannot change permissions once they are set without generating a new set of 
keys. 

iOS/Mac 


Android Add: Add items to a user's list. 
Windows 8 Modify: Modify items in a user's list. 
Web 

Other Mobile 
Adding URLs 
Existing Developers 


Retrieve: Retrieve items from a user's list. 


Platforms: 
We'll generate keys for the platforms you select below. You must select at least one platform to 
get started and you can always add or remove platforms later. 


ADDITIONAL INFO iphone iPad Mac 


Rate Limits Android - Mobile Android - Tablet Extension 
Error Handling Windows - Mobile Windows - Desktop Web 
Migrating Accounts to OAuth Mobile (other) Desktop (other) 

Application Naming 
Terms of Service 
Security 

Developer FAQ 
Developer Support 


laccept the Terms of Service. 





5-3 


一 旦 填写 完毕 并 提交 ， 你 将 收 到 CONSUMER KEY。 你 可 以 在 左上 角 的 My Apps 下 到 
它 。 看 上 去 束 如 图 5-4 的 截屏 所 示 ， 不 过 显然 你 会 得 到 一 个 真正 的 密 钥 。 














G 译 者 注 : 这 个 账户 是 使 用 API 的 开发 者 账户 ， 和 之 前 保存 文章 的 普通 账户 有 所 不 同 。 
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D O CE: Ket How to Save Blog Support My List 


APPS 
My Apps 


Create a New App My Applications 


In Development 
DOCUMENTATION 
Overview 
Add 
Modify 
Retrieve 


My Custom Feed MY_SECRET_KEY 


Authentication 
Objective-C SDK (@ 3 eo 
Article View API 


Preferences API 


GETTING STARTED 
iDS/Mac 

Android 

Windows 8 

Web 

Other Mobile 

Adding URLs 

Existing Developers 


ADDITIONAL INFO 


Rate Limits 

Error Handling 

Migrating Accounts to OAuth 
Application Naming 

Terms of Service 

Security 

Developer FAQ 

Developer Support 





图 5-4 


一 旦 设置 完毕 ， 你 束 可 以 进入 到 下 一 步 ， 进 行 授权 的 设置 。 我 们 现在 束 开 始 。 它 要 求 
你 输入 用 户 密 钥 和 重 定 同 的 网 址 。 重 定 癌 网 址 可 以 是 任何 链接 。 这 里 我 使 用 自己 的 Twitter 
账户 。 


import requests 





auth params = {'consumer key': 'MY CONSUMER KEY', 'redirect uri': 
'https://www.twitter.com/acombs'} 

tkn = requests.post('https://getpocket.com/v3/o0auth/request', 
data=auth params) 

tkn .content 


这 将 产 -5 的 输出 。 
这 将 产生 如 图 5-5 的 输出 b'code=some long code' 


该 输出 将 包含 你 下 一 步 所 需 的 编码 “。 将 pp 
以 下 内 容 放 在 浏览 器 的 地 址 栏 中 。 


https://getpocket .com/auth/authorize?regquest token=soms Long codegredire 


QD 译 者 注 : 图 5-5 中 some long code 所 代表 的 部 分 。 
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ct_uri=httpsgs3A//www.twitter.com/acompbs 中 


如 果 你 将 重 定 向 的 URL 更 改 为 你 自己 的 网 址 ， 请 务必 对 其 进行 编码 。 对 于 此 有 一 些 可 
用 的 资源 。 一 个 选择 是 使 用 Python 的 urllib 库 ， 另 一 个 选择 是 使 用 免费 的 在 线 资源 。 


此 时 ， 你 应 该 会 看 到 一 个 授权 屏 医 。 继 续 并 批准 授权 ， 然 后 我 们 束 可 以 进入 下 一 步 。 


usr params = {'consumer key':'my consumer key', 'code ' : 

















'some long code'} 

usr = requests.post('https://getpocket.com/v3/o0oauth/authorize', 
data=usr params) 

usr.content 


这 里 我 们 将 使 用 图 5-6 的 输出 编码 “进入 检索 故事 的 环节 。 





自 完 ， 我 们 检索 标记 为 “n” 的 故事 。 


no params = {'consumer key':'my consumer key', 'access token ' : 
'some_ super long code', 
'tag': 'n'} 
no result = requests.post('https://getpocket.com/v3/get', 
data=no params) 
no _ result.text 


上 述 代 人 码 生 成 图 5-7 的 输出 。 


u'{"status":1,"complete":1,"list":{"1167823383":{"item id":"1167823383","resolved id":"116782 
3383","given url":"http:\\/\\/www.businessinsider.com\\/gates-dont-expect-the-nuclear-agreeme 
nt-to-lead-to-a-more-moderate-iran-2016-1","given title":"GATES: Nuclear agreement won\'t lea 
d to moderate Iran - Business Insider","favorite":"0","status":"0","time added":"145325519 

8","time updated":"1453255217","time read":"0","time favorited":"0","sort id":0,"resolved tit 


le":"GATES: Don\'t expect the nuclear agreement to lead to a more moderate Iran","resolved ur 
l1":"http:\\/\\/www.businessinsider.com\\/gates-dont-expect-the-nuclear-agreement-to-lead-to-a 


-more-moderate-iran-2016-1","excerpt":"Former US defense secretary Robert Gates isn\'t optimi 
stic that the landmark July 2015 nuclear deal with Iran will lead the country\\u00a0to halt a 
ny of its disruptive policies in the Middle East or its support for terrorist groups.","is ar 
ticle":"1","is index":"0","has video":"0","has image":"1","word count":"963"},"1167877560": 


S27 





注意 在 这 里 ， 我 们 通过 所 有 标记 为 “n” 的 文章 获得 了 一 个 很 长 的 JSON 字符 串 。 其 
中 有 舌 干 个 主键 ， 不 过 现在 我 们 只 对 URL 感 兴趣 。 我 们 将 依据 此 ， 继 续 创 建 一 个 URL 
的 列表 。 


中 将 链接 中 的 some long code 蔡 换 为 你 获得 的 编码 。 
@ 这 里 的 输出 编码 some super long code 是 虚构 的 ， 只 是 用 于 示意 。 
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no jf = json.loads (no result.text) 
no jd = no JjJf['list'] 
no urls=[] 
for i In no jd.values () : 
no urls.append(i.get('resolved url')) 


no urils 


上 述 代 人 码 生 成 图 5-8 的 输出 。 


['http://www.slate.com/articles/double x/doublex/2016/01l/kermit gosnell s atrocities aren 七 an argument for stricte 

r abortion laws.html', 
'http://bleacherreport.com/articles/2608872-australian-open-2016-results-winners-scores-stats-from-monday-singles-br 

acket', 
'http://www.slate.com/blogs/xx_ factor/2016/01/14/rihanna ahead of beyonc in the celebrity endorsement game.html', 


'http://www.nzherald.co.nz/nz/news/article.cfm?c id=l&objectid=11576760', 
'https://blogs.msdn.microsoft.com/oldnewthing/20160114-00/?p=92851°', 
'https://www.washingtonpost.com/national/energy-environment/conservation-groups-demand-end-to-refuge-occupation/201 
6/01/19/bb83a94e-beff-lle5-98c8-7fab78677d51 story.html', 
'httn://www.ultimatenn.ora/index.htm]l '. 
5-8 


这 个 列表 包含 所 有 我 们 不 感 兴趣 的 故事 的 URL。 现在 ， 让 我 们 将 它 放 入 一 个 DataFrame 
对 象 并 将 其 如 此 标记 


import pandas 





no uf = pd.DataFrame (no urls, columns=['urls']) 
no uf = no uf.assign(wanted = lambda x: 'n') 


no uf 


上 述 代 人 码 生 成 图 5-9 的 输出 。 


o | http://netboot.xyz/ 


全 | https://theconversation.com/how-do-you-build-a-mirror-for-one-of-the-worlds-biggest-telescopes-4... 


是 从 


感 兴趣 


四 http://www.wsj.com/articles/alcoa-to-delay-idling-of-washington-smelting-operation-1453235716 


国 http://www.nzherald.co.nz/nz/news/article.ctm?c_id=1&objectid=11576760 


4 | http://www.businessinsider.com/r-islamic-state-frees-270-of-400-people-it-kidnapped-from-syrias-... 


5 | http://www.wsj.com/articles/johnson-johnson-plans-to-cut-6-of-workforce-1453205772 
6 | https://ramcloud.atlassian.net/wiki/display/RAM/RAMCloud+Papers nn 
http://mmajunkie.com/2016/01/ronda-rousey-targets-holly-holm-rematch-in-2016-thats-what-i-want-t... 
5-9 
、 一 
现在 ， 不 想 要 的 故事 已 经 融 绪 了。 让 我 们 对 感 兴趣 的 故事 进行 同样 的 处 理 。 
ye_Params = {'consumer key': 'my consumer key', 'access token' 





'some super long token', 

'tag': 'y'} 
yes_ result = requests.post('https://getpocket.com/v3/get', 
data=yes_ params) 
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yes_ jf json.1loads (yes result.text) 


yes_jd yes jf['list'] 

yes_urls=[] 

for i In yes jd.values () : 

yes_ urls.append(i.get('resolved url')) 

yes uf = pd.DataFrame (yes urls, columns=['urls']) 
yes uf = yes uf.assign(wanted = lambda x: 'y') 


yes_uf 


上 述 代 码 生 成 图 5-10 的 输出 。 


是 否 
感 兴趣 


o | https://medium.com/the-development-set/the-reductive-seduction-of-other-people-s-problems-3c07b3... 


量 http:/www.fastcompany.com/3054847/work-smart/can-exercise-really-make-you-grow-new-brain-cells 


| http://www.bbc.com/News/magazine-35290671 


| http:mobile.nytimes.com/2016/01/08/fashion/mens-style/new-york-bachelors-yearn-formore.html 


4 | http://www.fastcompany.com/3055019/how-to-be-a-success-at-everything/the-secret-to-making-anxiet... 
6 | https://medium.com/@amimran/usability-as-the-enemy-badf5ed6453a#.jxrdu7xub 
http:/www.fastcompany.com/3055282/why-its-totally-legal-to-dock-employees-pay-for-going-to-the-..…. 
8 | http://thenextweb.com/insider/2016/01/11/tinder-is-secretly-scoring-your-desirability-and-pickin... 





9 | http:/www.theatlantic.com/science/archive/2016/01/fiber-gut-bacteria-microbiome/423903/ 


5-10 


现在 我 们 有 两 种 类 型 的 故事 作为 训练 的 数据 ， 将 它们 连接 到 同一 个 DataFrame。 


df = pd.concat([yes uf, no uf]) 
df .dropna (inplace=1) 
df 


上 述 代 码 生 成 图 5-11 的 输出 。 


ET yo 
a resmomie vimescomoioos isin ly 
a rsacorcom mo nieoi cecum ly 


58 http://www.huffingtonpost.com/tim-ward/7-advan... nn 
59 http://www.cnn.com/2016/01/19/asia/peshawar-at... nn 
60 http://www.nytimes.com/2016/01/24/travel/green... n 





图 5-11 
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现在 ， 我 们 已 经 将 所 有 的 网 址 和 相应 的 标签 都 放 入 同一 个 数据 框 中 ， 接 下 来 要 下 载 每 
入 文 章 的 HIML 内 容 。 我 们 将 使 用 男 一 个 称 为 embed.ly 的 免费 服务 。 


5. 2 使 用 embed.ly AP1 下 载 故事 的 内 容 





我 们 拥有 了 所 有 故事 的 URL， 但 不 六 的 是 这 对 于 机 覃 训练 来 说 还 不 够 。 现 在 需要 整 篇 
文字 的 内 容 。 如 宁 我 们 需要 为 数 十 个 网 站 创建 目 己 的 朴 虫 ， 那 么 这 可 能 会 成 为 一 个 巨大 的 
挑 成 。 我 们 必须 编写 代码 来 定位 文章 的 正文 ， 同 时 小 心 回 避 围 纸 正 文 的 所 有 其 他 无 关内 容 。 
竺 运 的 是 ， 有 一 些 免 费 的 服务 将 为 我 们 实现 这 个 目标 。 这 里 将 使 用 embed.ly， 不 过 你 也 可 
以 使 用 一 些 其 他 的 服务 。 


第 一 步 是 注册 embed.ly API 的 访问 。 你 可 以 在 nttps://app.embed.ly/signup 
执行 此 操作 。 这 是 一 个 很 直接 的 过 程 。 一 旦 确认 注册 ， 你 将 收 到 一 个 API 密 铀 。 这 丈 是 你 
所 需要 的 全 部 。 只 需 在 HITP 请 求 中 使 用 此 密 钥 。 现 在 开始 吧 。 

importurllib 


defget html (x): 
qurl = urllib.parse.quote (x) 




















rhtml = requests.get('https://api.embedly.com/l1l/extract?url=' + 
qurl + '&key=some api key ') 
ctnt = json.loads (rhtml .text) .get('content') 
returnctnt 
df.loc[:,'html'] = df['urls'] .map (get html) 
df .dropna (inplace=1) 
df 


上 述 代 人 码 生 成 图 5-12 的 输出 。 


lvepemecm eone oovalopront eono od |y |<oio noecton hor Rooueive Seauoion ot. 
1 |http:/www.fastcompany.com/3054847/work-smart/.. ly <div>n<p><a href="http://suzukilab.com/">Wend... 
<div>\n<figure><img src="http://ichef.bbci.co.... 
<div>n<p>Jean-Marc Choffel, a 42-year-old Fre... 
Sreemonianoso atavet omeooets orn. |y cdo etory ongmnaly opoeared nth 
6 | https:/medium.com/@amimran/usability-as-the-e... 
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使 用 这 个 ， 每 个 故事 的 HITML 内 容 就 能 准备 好 了 。 
我 们 需要 向 模型 提供 纯 文 本 而 不 是 HIML， 上 所 以 这 里 将 使 用 解析 器 来 剥离 HTML 的 


7 
.0o 


一 > 
Sl 


from bs4 import BeautifulSoup 
defget text (x): 
soup = BeautifulSoup (x, 'lxml') 
text = soup.get text () 
return text 
df.loc[:,'text'] = df['html'] .map (get text) 
df 


上 述 代 码 生 成 图 5-13 的 输出 。 


EE Ci 
i | 
pen or moatlinied Bookal y <div>\n<h3>Top 30 books ranked by total nTop 30 books ranked by total number of 
Number... links... 
http://www.vox.com/2014/7/15/5881947/myers- <div>\n<p>The Myers-Briggs Type \nThe Myers-Briggs Type Indicator is 
bri... 7 Indicator is p... probably .… 


https://medium.com/@karppinen/how-i-ended-up- <div>\n<h3>How | ended up paying $150 |\nHow | ended up paying $150 for a single 

p... 7 for a si... 60GB... 

Filip be oom solentiie. <div>\n<figure><img \nshutterstockA wise Shakespeare mug 
src="http://static1.busine... once said.,,. 

http://www.vox.com/2016/1/14/10760622/nutritio... <div>\n<p>There was a time, in the \nThere was a time, in the distant past, 
distant pas... when .. 
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有 了 了 这个， 我 们 的 训练 集束 准备 完毕 了 。 现 在 可 以 继续 讨论 如 何 将 这 些 文本 转换 为 模 
型 可 以 使 用 的 格式 。 


.3 目 然 请 言 处 理 基 础 








如 果 机 器 学 习 模型 只 能 操作 数值 型 的 数据 ， 那 么 我 们 如 何 将 文本 转换 成 数值 的 表示 ? 
是 自然 语言 处 理 (NLP) 的 重点 。 在 我 们 处 理 数据 之 前 ， 需 要 简要 了 解 一 下 NLP 的 原理 。 


ee Pocket 收集 来 的 数据 ， 而 古 一 个 最 简化 的 例子 ， 以 确 你 阐明 NLP 
的 工作 原理 。 这 些 部 清楚 了， 我 们 束 可 以 将 其 应 用 于 新 闻 源 的 语料库 。 


我 们 将 从 一 个 包含 三 句 话 的 小 语料库 开始 。 


eThe new kitten played with the other kittens 
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eShe ate lunch 

eShe loved her kitten 

我 们 首先 将 语料库 转换 为 词 袋 (BOW) 的 表示 。 这 里 将 跳 过 预 处 理 。 将 语料库 转换 为 
词 袋 表示 ， 包 括 获 取 每 个 单词 及 其 数量 ， 来 创建 词 条 -文档 的 和 矩阵。 在 词 条 -文档 的 矩阵 中 ， 
每 个 唯一 的 单词 对 应 于 一 列 ， 而 每 个 文档 对 应 于 一 行 。 两 者 的 交点 是 这 个 单词 在 该 文档 中 
出 现 的 次 数 ， 如 表 5-1 所 示 。 











表 5-1 


Te vs ra vn one en we | oe rr aie 
DE 


oolololo lo lo 
EE 

请 注意 ， 仅 仅 分 析 了 这 三 个 短 句 ， 我 们 就 已 经 有 了 12 个 特征 了。 可 以 想象 ， 如 果 处 理 
真实 的 文档 ， 例 如 新 闻 稿 ， 甚 至 是 书籍 ， 那 么 特征 的 数量 将 爆炸 式 地 增长 到 数 十 万 。 为 了 
绥 解 这 个 问题 ， 我 们 可 以 采取 一 系列 的 步 台 ， 删 除 对 分 析 几 乎 没有 价值 的 特征 。 

我 们 可 以 采取 的 第 一 步 是 删除 停 用 词 。 这 些 单词 是 如 此 的 普通 ， 它 们 通常 无 法 告诉 你 
关于 文档 的 内 容 。 篆 见 的 英语 停 用 词 的 示例 是 “the”“i” 和 “at”“which” 和 “on”。 我 们 
将 删除 这 些 词 并 重新 计算 词 条 -文档 窍 阵 ， 如 表 5-2 所 示 。 

表 5-2 




















如 你 在 表 5-2 中 所 见 , 特征 的 数量 从 12 个 减少 到 7 个 。 这 很 棒 , 但 我 们 可 以 更 进一步 。 
这 里 可 以 执行 取 词 干 或 词 形 还 原来 进一步 减少 特征 。 请 注意 在 我 们 的 矩阵 中 ， 同 时 存在 





“kitten” 和 “kittens”。 使 用 取 词 干 或 词 形 还 原 的 技术 ， 我 们 可 以 将 这 两 者 合并 为 “kitten”， 
如 表 5-3 所 示 。 


(D 译 者 注 : 这 里 每 个 唯一 的 单词 表示 一 维特 征 。 
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表 5-3 





我 们 的 新 矩阵 合并 了 “kittens” 和 “kitten”， 不 过 这 里 还 进行 了 其 他 的 修改 。 我 们 去 掉 
了 “played” 和 “loved” 的 后 级 ,“ate” 变 成 了 “eat”。 为 什么 呢 ? 这 束 是 词 形 还 原 所 做 的 
事情 。 如 果 你 还 记得 小 学 的 语法 课 ， 我 们 学 过 从 带 词尾 的 形式 转变 为 词 的 基本 形式 。 现 在 ， 
如 果 词 形 还 原 是 将 一 个 词 变换 为 它 的 基本 形式 ， 那 什么 是 取 词 干 呢 ? 取 词 干 也 有 同样 的 目 
标 ， 不 过 它 使 用 的 方法 没有 那么 复杂 。 这 种 方法 有 时 可 以 产生 虚构 的 单词 而 不 是 实际 的 基 
本 形式 。 例 如 ， 在 词 形 还 原 中 ， 如 果 你 变换 词 “ponies”， 你 会 得 到 “pony”; 而 使 用 取 词 干 
的 拷 术 ， 你 会 得 到 “poni”。 

现在 ， 让 我 们 进一步 对 窍 阵 应 用 另 一 个 变换 。 到 目前 为 止 ， 我 们 使 用 了 每 个 单词 的 简 
单 计 数 ， 但 是 可 以 采用 某 个 算法 以 做 得 更 好 ， 它 就 像 数 据 的 过 滤器 ， 以 提升 对 于 每 个 文档 
而 言 更 为 特殊 的 单词 。 该 算法 称 为 词 频 - 逆 文 档 频 率 或 tfidf。 

我 们 为 矩阵 中 的 每 个 词 条 计算 tidf 的 值 。 这 里 来 算 几 个 例子 。 对 于 文档 1 中 的 “new” 
一 词 ， 词 频 只 是 1。 逆 文档 频率 计算 为 文档 总 数 除 以 出 现 该 词 的 文档 数 ， 再 取 log。 对 于 “new” 
来 说 束 是 log(3/1)， 或 0.4471。 所 以 对 于 完整 的 tidf 值 ， 我 们 使 用 txidf， 在 这 里 它 是 
1x0.4471, 或 者 就 是 0.4471。 对 于 文档 1 中 的 单词 “kitten” tidf 是 2 x log(3/2), 或 0.3522。 

为 剩余 的 词 条 和 文档 完成 同样 的 操作 ， 我 们 获得 了 和 表 5-4。 


表 5-4 





























EE EE 
EN EE CE 
为 什么 要 做 这 些 ? 为 了 获得 较 遍 的 妨 idf 值 ， 一 个 词 条 需要 在 较 少 的 文档 中 ， 出 现 较 高 
的 次 数 。 这 样 ， 我 们 可 以 认为 文件 由 具有 高 #Fidf 值 的 词 条 所 表示 。 
使 用 目前 的 数据 框 ， 我 们 将 训练 集 转换 为 妨 idr 定 阵 。 
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fromsklearn.feature extraction.text import TfidfVectorizer 
vect = TfidfVectorizer (ngram range=(1,3), stop words='english', min df=3) 
tv = vect.fit transform(df['text']) 


通过 这 三 行 ， 我 们 将 所 有 文档 转换 为 fiqf 辐 量 。 有 几 点 需要 注意 。 我们 传 入 了 了 一些 参 
数 : ngram range、stop words 和 min df。 让 我 们 逐个 来 讨论 。 

首先 ，ngram range 表示 文档 是 如 何 被 分 词 的 。 在 之 前 的 例子 中 ， 我 们 将 每 个 单词 
作为 分 词 ， 但 在 这 里 我 们 使 用 每 一 个 、 每 二 个 到 每 三 个 词组 成 的 序列 作为 分 词 。 以 第 二 名 
话 为 例 , “She ate lunch.” 此 时 忽略 停 用 词 。 那 么 这 人 句 话 的 ngram 将 是 :“she”、“she ate” 
“she ate lunch”、 “ate”、 “ate lunch” 和 “lunch”。 

接 下 来 的 选项 是 stop words。 我 们 传 入 “English” 来 删除 所 有 的 英语 停 用 词 。 如 前 
所 述 ， 这 将 删除 所 有 缺乏 信息 含量 的 词 条 。 

最 后 的 选项 是 min _ df。 这 里 会 揣 除 所 有 文档 频 训 少 于 三 的 捍 词 。 加 入 此 操作 会 移 除 
那些 非常 罕见 的 词 条 ， 并 减少 窍 阵 的 规模 。 





5.4 文 持 回 量 机 











我 们 将 在 本 革 中 使 用 一 个 新 的 分 类 右 , 即 线 性 支持 问 量 机 。 支持 问 量 机 的 算法 使 用 “最 
大 边 经 超 平 面 ”， 试图 对 数据 点 进 行 线性 分 离 并 归 类 。 这 是 口 涉 上 的 摘 述 ， 下 面 让 我 们 来 看 
看 这 完 况 是 什么 意思 。 

假设 有 两 类 数据 ， 而 我 们 想 用 一 条 线 来 分 隔 它 们 (这 里 只 处 理 两 个 特征 或 维度 )。 放 昨 
这 条 线 最 有 效 的 方法 是 什么 ?如 图 5-14 所 示 。 
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在 图 5-14 中 ， 线 Hi 不 能 有 效 地 区 分 两 个 类 ， 所 以 我 们 可 以 不 考虑 这 条 。 线 HD 能够 清 


楚 地 区 分 它们 ， 但 是 Hs 确保 了 最 大 的 空余 边缘 。 这 意味 着 该 线 在 两 个 类 间 最 近 点 的 当中 ， 
而 这 些 点 被 称 为 文 持 同 量 。 它 们 也 可 以 看 作 是 图 5-15 中 的 虚线 。 
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但 是 ， 如 果 数 据 不 能 被 如 此 清晰 地 分 到 各 个 关中 ， 那 又 该 怎么 人 办? 如 有 点 之 间 有 重 登 
呢 ? 在 这 种 情况 下 也 有 办 法 。 一 种 是 使 用 所 请 的 softmargin SYM。 这 个 公式 仍然 使 边 绿 最 
大 化 ， 但 是 有 一 个 权衡 的 策略 : 如 果 点 错误 地 落 在 边缘 的 茶 一 侧 ， 那 么 对 这 样 的 点 进行 惩 
罚 。 万 一 种 是 使 用 所 谓 的 kernel 技巧 。 这 种 方法 将 数据 转换 到 更 局 维度 的 空间 ， 让 这 些 数 
据 可 以 被 线性 的 分 割 。 


如 图 5-16 所 示 ， 其 中 有 两 个 类 ， 不 能 用 单线 性 平面 分 开 。 


5-16 
不 过 ， 内 核 的 某 种 实现 可 以 将 图 5-16 的 图 像 映射 到 更 高 维度 ， 如 图 5-17 所 示 。 这 人 允 
许 数据 被 线性 分 割 |。 
我 们 已 经 将 一 维特 征 空 间 映 射 到 二 维特 征 空间 。 该 映射 简单 地 取 每 个 x 值 并 将 其 映射 
到 x，x*。 这 个 变换 允许 我 们 添加 线性 分 割 的 平面 。 
介绍 完 这 些 ， 现 在 让 我 们 将 tidf 窍 阵 传送 给 SVM 模型 。 


fromsklearn.svm import LiIneazSVC 
clf = LinearSVCc() 
model = clf.fit(tv, df['wanted']) 
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这 个 tv 参数 是 我 们 的 窍 阵 ， 而 df [wanted] 是 我 们 的 标签 列表 。 记 住 标 丛 是 Y' 或 只 ， 表 
示 我 们 古谷 对 文章 感 兴 趣 。 一 旦 运行 完成 ， 模 型 束 训 练 完毕 了 。 

















评估 模型 ,但 由 于 我 们 需要 不 断 更 新 模型 并且 每 天 评估 它 ， 在 这 一 章 我 们 将 跳 过 这 一 步 。 
记得 这 通常 是 一 个 糟糕 的 想法 “。 


现在 让 我 们 继续 建立 每 日 的 新 闻 源 。 


5.5 1FTTT 与 文 草 产 、Google 表单 和 电子 邮件 的 集成 











我 们 使 用 Pocket 来 构建 训练 集 ， 可 古 现 在 需要 一 个 流 式 的 文章 源 来 运行 训练 后 的 模型 。 
为 了 完成 这 项 任务 ， 我 们 将 再 次 使 用 IFTT、Google 表单 ， 以 及 一 个 允许 我 们 使 用 Google 
表单 的 Python 库 。 


通过 IFTTT 设置 新 闻 源 和 Google 表单 


名 望 此 时 你 已 经 有 一 个 TTT 帐户， 如 果 没 有 请 现在 去 申请 。 更 多 详细 信息 ， 请 参阅 
第 3 章 一 -构建 应 用 程序 ， 发 现 低 价 的 机 票 。 一 旦 完成 此 操作 后 ， 你 需要 设置 它 与 文章 源 
和 Google 表单 的 集成 。 


在 图 5-18 中 ， 首 先 单 击 Channels， 搜 索 ffged， 然 后 单 击 它 进行 设置 。 
在 图 5-19 中 ， 你 只 需要 单 击 Connect。 


























QD 译 者 注 : 作者 的 原意 是 通常 情况 下 ， 不 应 该 跳 过 评估 的 环 市 。 
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Chan nels IFTTT lets you create connections between the Channels below. 


息 


Amazon Alexa Pocket IF Notifications 


News and Sports 


Rs BY 


BuzzFeed Feed Feedly 
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Feed Channel 


All Channels 


The Feed Channel provides Triggers and Actions for 
working with RSS and Atom web feeds. 


A web feed (or news feed) is a data format used for 
providing users with frequently updated content. 
Content distributors syndicate a web feed, thereby 
allowing users to subscribe to it. 
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接 下 来 ， 再 次 单 击 右上 角 的 Channels。 这 次 搜索 Google Drive， 如 图 5-20 所 示 。 


Cha Nn nels IFTTT lets you create connections between the Channels below. 


息 


Amazon Alexa Pocket IF Notifications 





Google Drive 


Productivity 


4 


Google Drive 
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单 击 Google Drive。 它 会 带 你 到 选择 Google 账户 进行 连接 的 页 面 。 选 择 账户 ， 然 后 单 
击 Allow 人 允许 IFTT 访问 你 的 Google Drive 账户。 完成 后 ， 你 应 该 看 到 图 5-21 的 内 容 。 


Google Drive Channel 


A 1 ~| 吕 
AS 四 门 门 所 | 


Google Drive lets you store and access yourfiles 
anywhere — on the web, on your hard drive, or on the 


go. 


Email address: me@myemail.com 


Google Drive Settings 


Google Permissions 


Reconnect Channel 


Disconnect 
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现在 ， 我们 的 频道 已 连接 ， 可 以 设置 自己 的 文章 源 了 。 单 击 My Recipes， 然 后 单 击 Create 
a Recipe。 这 将 让 你 来 到 这 一 步 ， 如 图 5-22 所 示 。 


Create a Recipe 


ifthisthenthat 





5-22 
单 击 this。 搜 索 feed， 然 后 单 击 它 。 你 会 来 到 这 一 步 ， 如 图 5-23 所 示 。 
Choose a Trigger 


New feed item New feed item matches 


hic 本 ri 天 merfirec avarv timAa a NAau Thie Tri 一 marfrec avarv tirne a 
Ss Irigger Tires every tIMe a new InIs Irigger Tires every tme a new 


tem is added to the feed you tem in the feed you specify contains a 


1 . 
cular keyword or simple phrase. 


DartliCUla 





S03 
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在 图 5-23 中 ， 单 击 New feed item， 你 应 该 看 到 图 5-24 的 内 容 。 


Complete Trigger Fields 


New feed item 


Feed URL 


http://feeds2.feedbu rner.com/businessinsider| 


IRL requirements, visit the help page 


Create Trigger 
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然后 ， 将 URL 添加 到 输入 框 中 ， 并 单 击 Create Trigger。 一旦 这 步 完 成 ， 你 会 回 到 添加 


that 的 动作 ， 如 图 5-25 所 示 。 


if BY thenthat 


New feed item from 
http://feeds2.feedburner.com/ 
businessinsider 





$25 
单 击 that, 搜索 Google Drive, 然后 单 击 其 图 标 。 一 旦 完成 这 步 ， 你 





如 图 5-26 所 示 。 


6 Choose an Action 


Upload file from URL Create a document Append to a document 


Add row to spreadsheet 
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我 们 希望 新 闻 项 目 能 够 流入 Google Drive 的 电子 表单 ， 因 此 请 单 击 Add row to spreadsheet。 
然后 ， 你 可 以 目 定 义 电 子 表单 ， 如 图 5-27 所 示 。 


Add row to spreadsheet 


6 Spreadsheet name 





NewStories 


6 Formatted row 





EntryPublished ||| EntryTitle ] EntryUrl 用 
EntryContent 省 FeedTitle | FeedUnl 


6 Drive folder path 





IFTTT 


Create Action 





图 5-27 


我 将 这 个 电子 表单 命名 为 NewStories, 并 将 其 放 在 名 为 IFTTT 的 Google Drive 文件 来 
中 。 单 击 Create Action 来 完成 这 个 Recipe， 很 快 你 融会 看 到 新 闻 项 目 不 断 地 流入 Google 
Drive 的 电子 表单 。 注 意 ， 它 只 会 添加 新 进入 的 新 闻 项 目 ， 而 不 会 添加 在 创建 Google 工作 
表 时 就 已 经 存在 的 新 闻 项 目 。 我 建议 增加 一 定数 量 的 信息 源 。 你 需要 为 每 个 源头 创建 单独 
的 Recipe。 最 好 为 训练 集中 的 网 站 添加 信息 源 ， 例 如 ， 你 使 用 Pocket 保存 的 那些 网 站 。 


让 新 闻 故 事 在 表 单 中 累积 一 两 天 。 很 快 ， 它 们 束 应 该 看 起 来 像 图 5-28 那样 。 


A B C D 























January 17, 2016 at 08:48AM The man who owned the world: David Bowie made reinvention an art form - Salon http://news.goo lec™ <table border="0" cellpadding="2" cellspacing 


January 17, 2016 at 02:26PM Netflix To Ramp Up Originals Targeting Kids - Wall Street Journal http://news.google.com/| <table border="0" cellpadding="2" cellspacing 


January 17, 2016 at 06:06PM Nostalgia powers Netflix's 'Fuller House' return - USA TODAY http://news.google.com/| <table border="0" cellpadding="2" cellspacing 


January 17, 2016 at 04:51PM High School Musical cast to reunite for 10-year anniversary telecast - Entertainment Weekly |http:/news.google.com/| <table border="0" cellpadding="2" cellspacing 


January 17, 2016 at 06:40PM Unbreakable Kimmy Schmidt renewed for season 3 by Netflix - Entertainment Weekly http://news.google.com/| <table border="0" cellpadding="2" cellspacing 





January 17, 2016 at 05:50PM David Bowie's 'Blackstar Becomes His First No. 1 Album - Us Weekly http://news.google.com/| <table border="0" cellpadding="2" cellspacing 


January 17, 2016 at 07:02PM 5 reasons why birthday girl Betty White had a much better year than you did - USA TODAY |http://news.google.com/| <table border="0" cellpadding="2" cellspacing 


January 16, 2016 at 10:00PM Straight Outta Compton' Producer Calls Oscar Noms "Embarrassing" - Hollywood Reporter |http://news.google.com/| <table border="0" cellpadding="2" cellspacing 


January 16, 2016 at 02:07PM 
January 17, 2016 at 01:27PM 
January 17, 2016 at 04:18PM 
January 17, 2016 at 06:40PM 
January 17, 2016 at 07:02PM 
January 17, 2016 at 08:43PM 
January 17, 2016 at 08:46PM 


SXSW Co-Founder Confesses to 'David Bowie' Street Sign in Austin - Billboard 


Ted Sarandos Blasts NBC's Netflix Ratings Info: 'Remarkably Inaccurate' - Variety 


Critics' Choice Awards: What will happen when Erlich Bachman from 'Silicon ... - CNN 


Jessica Jones RENEWED for season 2 by Netflix but there's a twist - Mirror.co.uk 
High School Musical' Stars Reunite for 10th Anniversary - ABC News 
Say hello to 'Daredevil's' Frank Castle, Elektra - USA TODAY 


Sean Penn Tells '60 Minutes' His EI Chapo Story "Failed" - Hollywood Reporter 


图 5-28 
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http://news.google.com/| <table border="0" cellpadding="2" cellspacing 
hittp://news.google.com/| <table border="0" cellpadding="2" cellspacing 
http://news.google.com/| <table border="0" cellpadding="2" cellspacing 
http://news.google.com/| <table border="0" cellpadding="2" cellspacing 





http://news.google.com/| <table border="0" cellpadding="2" cellspacing 


http://news.google.com/| <table border="0" cellpadding="2" cellspacing 





http://news.google.com/| <table border="0" cellpadding="2" cellspacing 
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华 运 的 是 ， 其 中 包括 了 全 文 的 HTML 内 容 。 这 意味 看 我 们 不 必 表 使 用 embed.1y 为 
每 篇 文章 下 载 其 内 容 。 我 们 仍然 需要 从 Google 表单 中 下 载 文章 ， 然 后 处 理 其 中 的 文本 以 删 
除 HTML 标记 ， 但 这 一 切 都 可 以 相当 容易 地 完成 。 


为 了 拉 取 表单 中 的 文章 ， 我 们 将 使 用 一 个 名 为 gspread 的 Python 库 。 它 可 以 通过 pip 
安装 。 完 成 后 ， 你 需要 按照 指示 设置 oauth2 。 可 以 在 
http://gspread.readthedocs.org/en/latest/oauth2.html 找到 如 何 设置 。 完 
成 后 ， 你 会 下 载 一 个 JSON 格式 的 竺 据 文 件 。 一 旦 你 有 了 这 个 文件 ， 束 能 使 用 
client email 键 找到 电子 邮件 地 址 。 然后 ,你 雷 要 问 该 电子 邮件 共 至 正在 接受 新 闻 故 事 
的 NewStories 电子 表单 。 只 需 单 击 表单 右上 角 的 监 色 Share 按钮 ， 然 后 在 其 中 粘贴 电子 
邮件 地 址 束 行 了 了 。 如 果 运 行 下 列 代码 ， 最 终 你 会 在 Gmail 账户 中 收 到 未 能 发 送 的 邮件 ， 但 
这 是 预期 的 结果 。 请 确保 在 以 下 的 代码 中 换 入 你 目 己 的 文件 路 径 以 及 文件 名 称 。 


importgspread 

from oauth2client.client import SignedJwtAssertionCredentials 

json key = json.load(open(r'/PATH TO KEY/KEY .json')) 

scope = ['https://spreadsheets .google.com/feeds'] 

credentials = SignedJwtAssertionCredentials (json keyl['client email'], 
json key['private key'] .encode(), scope) 

gc = gspread.authorize (credentials) 


现在 ， 如 条 一 切 顺 利 ， 运 行 应 该 没有 错误 。 接 下 来 ， 你 可 以 下 载 新 闻 故 事 了 。 





























ws = gc.open("NewStories'") 

sh = ws.sheetl 

zd = list(zip(sh.col values(2),sh.col values(3), sh.col values (4) ) ) 
zf = pd.DataFrame (zd, columns=['title','urls','html']) 


zf.replace('', pd.np.nan, inplace=True) 
zf.dropna (inplace=True) 
zf 


上 述 代码 生成 图 5-29 的 输出 。 
| 标题 


The man who owned the world: David 


E ? 一 一 = 
nie ral ee http://news.google.com/news/url?sa=t&fd=R&ct2=... 


Netflix To Ramp Up Originals Targeting 


kids - http://news.google.com/news/url?sa=t&fd=R&ct2=... 


Nostalgia powers Netflix's 'Fuller 
9 Pe " http://news.google.com/news/url?sa=t&fd=R&ct2=... 
House' retu... 
High School Musical cast to reunite for 
轩 1 a 3 和 http://news.google.com/news/url?sa=t&fd=R&ct2=... 


5-29 
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如 此 一 来 ， 我 们 从 信息 源 中 下 载 了 所 有 的 文章 ， 并 将 它们 放 入 了 DataFrame 对 象 。 
现在 需要 去 挥 HTML 标签 。 可 以 使 用 之 前 用 过 的 函数 来 获取 文本 。 然 后 我 们 将 使 用 tfidf 
问 量 转换 器 转变 它 。 


zf.loc[:,'text'] = zf['html'] .map (get text) zf.reset index (drop=True, 











inplace=True) 
test matrix = vect.transform(zf["'text"']) 
test matrix 


上 述 代 人 码 生 成 图 5-30 的 输出 。 


<488x4532 sparse matrix of type '<class “numpy .flLoat64 > 
with 23361 stored elements in Compressed Sparse Row format> 


图 5-30 
这 里 ， 我 们 看 到 问 量 化 是 成 功 的 。 现 在 将 这 个 传递 给 模型 ， 以 获取 
结 


results = pd.DataFrame (model .predict (test matrix), 
columns = ['wanted' ] ) 


上 述 代 码 生 成 图 5-31 的 输出 。 
可 以 看 到 ， 每 个 故事 都 有 一 个 预测 的 结果 。 让 我 们 来 查阅 故事 的 内 容 ， 
以 此 来 评估 结果 的 准确 性 。 


rez=pd.merge (results,zf, left index=True, right index=True) 
rez 


上 述 代 码 生 成 图 5-32 的 输出 。 


Nostalgia powers Netflix's 'Fuller House return' - USA TODAY 








证 | High School Musical cast to reunite for 10-year anniversary telecast - Entertainment Weekly 


5-32 


图 5-32 中 两 访 文 章 的 预测 肯定 是 对 的 ， 因 为 我 的 兴趣 不 在 High School Musical 和 Full 


House。 


此 时 ， 我 们 可 以 通过 查看 结果 和 纠正 错误 来 改进 模型 。 你 需要 根据 自己 的 判断 来 决定 
每 个 预测 准确 与 否 ， 这 里 列 出 我 的 判断 和 修改 结 


change to no = [130, 145, 148, 163, 178, 199, 219, 222, 223, 226, 235, 279, 
348, 357, 427, 440, 542, 544, 546, 568, 614, 619, 660, 668, 679, 686, 740,，, 
829] 

change to yes = [0, 9, 29, 35, 42, 71, 110, 190, 319, 335, 344, 371, 385, 
399, 408, 409, 422, 472, 520, 534, 672] 
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for i In rez.iloc[change to yes] .index: 


rez.iloc[i]['wanted'] = 'y' 

for i In rez.iloc[change to nol] .index: 
rez.iloc[i]j['wanted'] = 'n' 
rez 


上 述 代 人 码 生 成 图 5-33 的 输出 。 


The man who 

owned the 

world: David http://Nnews.google.com/news/url?sa=t&fd=R&ct2=us&usg=AFQJCNE_a3MZnPNJ_DL--w- 

Bowie made _YaNx6lrrbw&clid=c3a7d30bb8a4878e06b80cf16b898331&cid=52779030852562&ei=PyCcVvtDxCYaa3QHP5ogl&url=http:/A 
reinvention an 


art form - Salon 


Netflix To Ramp 
Up Originals 


. http://Nnews.google.com/news/url?sa=t&fd=R&ct2=us&usg=AFQJCNFcojfNfk- 
Targeting Kids - 


8kEXByi4x1dWEyPmlJw&clid=c3a7d30bb8a4878e06b80cf16b898331&cid=52779031941618&ei=ISOcVuiuMYOT3AH8vpb4 


图 5-33 


看 上 去 好 像 有 修正 了 很 多 错误 ， 但 对 于 超过 900 访 文 章 的 评价 而 言 ， 可 以 说 改 得 非常 
少 了 。 通 过 这 些 更 正 ， 我 们 现在 可 以 将 其 反馈 到 模型 中 进一步 提升 它 。 将 这 些 结 条 添加 到 
之 前 的 训练 数据 中 ， 然 后 重建 模型 。 


combined = pd.concat([df[['wanted', 'text']], rez[['wanted', 
'text']]]) 
combined 


上 述 代 码 生 成 图 5-34 的 输出 。 


\nTop 30 books ranked by total number of links to Amazon in Hacker News comments\nClick on a thumbnail image or bar to show the book 
yg detailsnAmazon product links were extracted and counted from .… 


\nThe Myers-Briggs Type Indicator is probably the most widely used personality test in the world.\nAbout 2 million peopletake it annually, at 
> the behest of corporate HR departments, colleges, and ... 





\nHow | ended up paying $150 for a single 60GB download from Amazon Glacier\nIn late 2012, | decided that it was time for my last 
remaining music CDs to go. Between MacBook Airs and the just-intro... 


\nshutterstockA wise Shakespeare mug once said that "love is merely madness" and when you're in the throws of it, that certainly seems to 
be so.\nLike Dimetapp, love tastes strange, is intoxicatin... 


Lind wanted to figure out why so many sailors got scurvy, ... 





\nThere was atime, in the distant past, when studying nutrition was a relatively simple science.\nln 1747, a Scottish doctor named James 


图 5-34 


现在 我 们 重建 模型 。 


tvcomb = vect.fit transform(combined['text'], combined['wanted']) 
model = clf.fit(tvcomb, combined['wanted"']) 
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我 们 通过 所 有 可 用 的 数据 重新 训练 了 模型 。 随 看 时 间 的 推移 你 将 获得 更 多 的 结束 ， 
此 可 以 进行 多 次 这 样 的 操作 。 你 添加 的 训练 数据 越 多 ， 预 测 的 结果 会 越 好 。 


我 们 假设 此 时 你 已 经 有 一 个 训练 有 系 的 模型 7 了， 并 准备 开始 使 用 它 。 下 面 看 看 如 何 部 
普 它 来 建立 个 性 化 的 新 闻 源 。 


5.6 设置 你 的 每 日 个 性 化 新 闻 简 报 





为 了 使 用 新 闻 故 事 来 创建 个 人 电子 邮件 ， 我 们 将 再 次 使 用 IFTTT。 如 我 们 在 第 3 章 一 一 
构建 应 用 程序 ， 发 现 低 价 的 机 票 一 一 所 做 ， 我 们 将 使 用 Maker 频道 发 送 POST 请 求 。 不 过 ， 
这 一 次 的 有 效 载 丛 将 是 我 们 的 新 闻 故 事 。 如 果 你 尚未 设置 Maker 频道 ， 请 先 完成 这 一 步 。 
具体 的 操作 指令 可 以 在 第 3 章 中 找到 。 你 还 应 设置 Gmail 频道 。 一 旦 完成 后 ， 我 们 将 添加 
一 个 Recipe 来 组 合 这 两 个 。 


首先 ,在 IFTTT 主页 单 击 Create Recipe。 然 后 ， 搜 索 Maker Channel， 如 图 5-35 所 示 。 





Choose Trigger Channel 


View all Channels 





maker 





5-35 


选择 this， 然 后 选择 Receive a web request， 如 图 5-36 所 示 。 


M Choose a Trigger 


Receive a web request 





图 5-36 
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然后 ， 为 该 请 求 捉 供 一 个 名 称 。 我 在 这 里 使 用 news_event， 如 图 5-37 所 示 。 


M Complete Trigger Fields 


Receive a web request 


M Event Name 


News_event 


Create Trigger 





图 5-37 





最 后 ， 单 击 Create Trigger 来 完成 所 有 步骤 。 接 下 来 ， 单 击 that 来 设置 电子 邮件 。 搜 索 
Gmail 并 单 击 图 5-38 所 示 的 图 标 。 


Choose Action Channel 


View all Channels 





图 5-38 


选择 Gmail 后 ， 单 击 Send an e-mail， 如 图 5-39 所 示 。 在 这 里 ， 你 可 以 定制 化 自己 的 电 
子 邮 件 消 息 。 


NA Complete Action Fields 


Send an email 


N4 To address 





me@gmail.com 


MI Subject 


News Digest A 


II Body 





Value1 





图 5-39 
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输入 你 的 电子 邮件 地 址 ， 主 题 ， 最 后 在 电子 邮件 的 正文 中 包括 Valuel 。 我 们 将 通过 POST 
请 求 传递 故事 标题 和 链接 。 单 击 Create Recipe 最 终 完 成 这 项 操作 。 
现在 ， 我 们 已 经 准备 驶 绪 ， 可 以 生成 一 个 按 计 划 运 行 的 脚本 ， 目 动 发 送 我 们 感 兴趣 的 
文章 。 我 们 将 为 此 创建 一 个 单独 的 脚本 ， 不 过 对 于 现 有 的 代码 ， 还 需要 序列 化 同 量 转化 需 
和 模型 。 


import pickle 





pickle.dump (model, open 
(r'/Users/alexcombs/Downloads/news model pickle.p', 'wb')) 
pickle.dump (vect, open 
(r'/Users/alexcombs/Downloads/news vect pickle.p', 'wb')) 


通过 这 些 代码 ， 我 们 已 经 保存 了 所 需 的 模型 。 在 新 的 脚本 中 ， en 
生成 新 的 预测 。 我 们 将 使 用 相同 的 计划 库 运 行 第 3 章 的 代码 。 整 合 所 有 这 些 ， 我 们 将 获得 
如 下 的 脚本 。 

# 进行 包 的 导入 


import pandas as pd 








fromsklearn.feature extraction.text import TfidfVectorizer 
fromsklearn.svm import LiIneazSVC 


import schedule 
import time 


import pickle 
importjson 
importgspread 


import requests 
from bs4 import BeautifulSoup 


from oauth2client.client import SignedJwtAssertionCredentials 


# 创建 我 们 的 抓 取 函数 

deffetch _ news () : 
try: 
vect = pickle.load (open (r'/Users/alexcombs/Downloads/ 
news vect pickle.p', 'rb')) 
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model = pickle.]load (open (r'/Users/alexcombs/Downloads/ 
news model pickle.p', 'rb')) 


json key = json.load(open(r'/Users/alexcombs/Downloads/ 
APIKEY .json')) 

scope = ['https://spreadsheets .google.com/feeds'] 
credentials = SignedJwtAssertionCredentials (json key 
['client email'], json key['private key'] .encode(), scope) 
gc 


gspread.authorize (credentials) 


ws = gc.open ("NewStories") 
sh = ws.sheetl 


zd = list(zip(sh.col values(2), sh.col values (3), 

sh.col values (4) ) ) 

zf = pd.DataFrame (zd, columns=['title', ‘'urls', 'html']) 
zf.replace('', pd.np.nan, inplace=True) 


zf.dropna (inplace=True) 


defget text (x): 
soup = BeautifulSoup (x, 'lxml') 
text = soup.get text () 
return text 


zf.loc[:, 'text'] = zf['html'] .map (get text) 


tv = vect.transform(zf['text']) 
res = model .predict (tv) 


rf = pd.DataFrame (res, columns=['wanted']) 
rez = pd.merge (rf, zf, left index=True, right index=True) 


news_ str = "" 

for 七 u in zip(rez[rez['wanted'] == 'y']['title'], 
rez[rez['wanted'] == 'y']['urls']): 

news str = news str + t+ '\n' +u + '\n' 


payload = {"valuel": news _ str} 
r = requests.post('https://maker.ifttt.com/trigger/ 
news event/with/key/IFTTT KEY', data=payload) 


# 清理 工作 表 


lenv = lenl(sh.col values (1)) 
cell list = sh.range('Al:F' + str(lenv)) 
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for cell in Cell list: 
cell.value = "" 
sh.update cells (cell list) 
print(r.text) 

except: 

print('Failed') 


schedule.every (480) .minutes .do (fetch news) 
while 1: 

schedule.run pending () 

time .sleep (1) 


这 个 脚本 所 做 的 事情 是 ， 每 4 小 时 运行 一 次 ， 从 Google 表单 下 载 新 闻 故 事 ， 通 过 模型 
对 这 些 故事 进行 预测 ， 再 向 IFTTT 发 送 POST 请 求 来 生成 电子 邮件 ， 该 邮件 包含 了 模型 预 
测 我 们 会 感 兴趣 的 故事 ， 然 后 在 最 终 ， 它 会 清除 电子 表格 中 的 故事 ， 以 便 下 一 封 电 子 邮件 
只 会 发 送 新 的 故事 。 

恭喜 ! 你 现在 拥有 自己 的 个 性 化 新 闻 源 了 ! 

















5.7 小 结 





在 本 章 中 , 我 们 学 习 了 在 训练 机 器 学 习 模 型 时 , 如 何 使 用 文本 数据 。 我 们 还 学 习 了 NLP 
和 文 持 问 量 机 的 基础 知识 。 下 一 昔 ， 我 们 将 进一步 深入 这 些 技能 ， 并 答 试 预测 什么 样 的 内 
容 会 三 为 流传 。 
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第 6 章 
预测 你 的 内 容 是 否 会 广 为 流 传 


一 切 都 始 于 一 场 赌注 。2001 年 ，Jonah Peretti， 那 时 还 是 号 省 理工 学 院 的 研究 生 ， 拖 延 
了 他 的 毕业 进程 。 他 没有 写 论文 ， 而 是 决定 接受 耐 殉 公司 提供 的 机 会 ， 打 造 一 双 个 性 化 的 
运动 圣 。 根 据 当 时 推出 的 最 狐 项 目 ， 任 何人 都 可 以 在 耐 元 的 新 网 站 一 一 NIKEiD 进 行 这 样 的 
设计 。 唯一 的 问题 是 , 至 少 从 耐克 的 角度 来 看 , 像 Peretti 所 请 求 的 那样 , 在 耐克 畦 上 打出 “ 血 
汗 工 三 ”2 的 字眼 ， 是 不 能 予以 考虑 的 。Peretti 通 过 一 系列 发 给 耐克 公司 的 电子 邮件 表示 抗 
议 ， 他 指出 “血汗 工厂 ”一 词 并 不 属于 该 公司 明令 禁止 条 球 中 的 任何 类 列 ， 因 此 不 应 该 导 
致 他 的 请 求 被 拒绝 。 


Peretti 发 现 他 与 耐克 的 客服 代表 之 间 来 来 回回 的 邮件 非 营 有 意思 ， 而 且 和 党 得 询 人 可 能 
也 会 感 兴 趣 ， 所 以 将 这 些 信和 转发 给 一 些 杀 近 的 朋友 。 几 天 之 内 ， 电 子 邮 件 已 经 进入 了 全 世 
界 的 各 种 收 件 箱 。 主 流 的 媒体 ， 例 如 Time、Salon、The Guardian， 甚 至 Today show 的 节目 
都 谈论 到 了 这 个 。Peretti 是 整个 病毒 式 传 播 的 中 心 。 


不 久之 后 ， 开 始 讨论 的 问题 变 成 这 种 事情 是 否 可 以 复制 。 他 的 朋友 ，Cameron Marlow， 
一 直 在 准备 写 有 关 病 毒 式 传播 的 博士 论文 ， 并 且 非 党 衣 定 这 样 的 事情 对 于 任何 人 来 说 都 很 
难 刻 意 为 之 的 。Marlow 和 Peretti 打赌 ，Peretti 不 能 重复 耐克 事件 这 样 的 成 功 。Peretti 迎接 
了 挑战 。 


一 晃 15 年 过 去 了 ，Jonah Peretti 领导 着 一 个 名 为 BuzzFeed 的 网 站 ， 它 已 经 成 为 了 病毒 
式 内 容 的 同义词 。2015 年 该 网 站 拥有 超过 7700 万 的 独立 访问 者 ， 在 总 触 达 率 的 排名 中 它 
高 于 纽约 时 报 。 我 认为 Peretti 赢得 了 这 场 财 注 。 


但 他 守 竟 是 怎么 做 的 呢 ? Peretti 如 何 发 明 秘 密 公式 ， 来 创建 像 野 火 一 般 台 延 的 内 容 ? 



































(D 译 者 注 : 耐 区 认为 Peretti 这 样 做 是 含 沙 射影 地 指 同 而 元 工厂。 
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在 本 章 中 ， 我 们 将 试图 解 开 其 中 一 些 奥秘 。 我 们 将 观察 一 些 广 为 流传 的 内 容 ， 并 尝试 找到 
它们 的 共同 点 ， 看 看 它们 和 那些 人 们 不 太 愿意 分 享 的 内 容 相 比 ， 到 底 有 什么 区 别 。 

我 们 将 在 本 章 讨论 以 下 主题 。 

。 关 于 病毒 性 ， 研 究 告诉 我 们 了 些 什么 ? 

。 获 得 被 共享 的 内 容 和 数量 。 

。 探 索 可 共享 性 的 特征 。 

。 构 建 预 测 性 的 内 容 评分 模型 


6. 1 关于 病毒 性 ， 人 研究 告诉 我 们 了 些 什么 











了 解 共享 行为 是 一 件 很 重要 的 事情 。 随 着 消费 者 对 传统 广告 的 日 益 麻 木 ， 推 送 应 该 不 
再 限于 简单 的 触 达 ， 而 是 应 该 讲述 更 有 吸引 力 的 故事 。 这 种 尝试 的 成 功 在 社交 性 分 享 中 变 
得 越 来 越 明 显 。 为 什么 要 花费 力气 做 这 些 呢 ? 因为 对 于 一 个 品牌 而 言 ， 每 一 次 分 享 都 意味 
着 触 达 了 一 个 消费 者 一 -而且 没有 花费 1 分 钱 。 

鉴于 其 价值 ， 几 个 研究 人 员 观 察 了 分 享 行为 ， 希 望 理解 是 什么 激励 人 们 这 么 去 做 。 

研究 人 员 发 现 了 以 下 几 点 原因 。 

为 他 人 提供 实用 的 价值 (利他 主义 动机 )。 

。 将 自身 和 某 些 想法 以 及 概念 相关 联 (自我 认同 动机 )。 

。 通 过 共同 的 情感 与 他 人 联系 (公社 动机 )。 

关于 最 后 一 个 动机 ， 一 个 经 过 特别 精心 设计 的 研究 查看 了 7,000 份 来 自 《纽约 时 报 》 
的 内 容 ， 以 观察 情感 对 分 享 行为 的 影响 。 他 们 发 现 ， 简 单 的 情感 和 情绪 不 足以 解释 分 享 行 
为 ， 但 当 分 享 与 情绪 响应 相 结合 时 ， 解 释 力 更 大 。 例 如 ， 虽 然 悲伤 具有 很 强 的 负面 性 ， 但 
被 认为 是 低 响应 状态 。 另 一 方面 ， 愤 怒 既 具有 负面 性 ， 又 具有 相 匹 配 的 高 响应 状态 。 鉴 于 
此 ， 使 读者 产生 莫 伤 情绪 的 故事 ， 其 产生 的 进一步 传播 要 比 使 读者 产生 愤怒 情绪 的 故事 产 
生 少 得 多 ， 如 图 6-1 所 示 。 


这 遍 文 章 包含 了 动机 方面 的 研究 。 然 而 ， 如 果 我 们 你 持 这 些 因素 不 变 ， 其 他 属性 将 如 
何 影响 茶 段 内 容 的 病毒 式 传 播 ? 其 中 一 些 因 系 可 能 包括 : 标题 的 语 名 、 标 题 的 长 度 、 标 题 
的 词性 、 内 容 的 长 度 、 及 帖 的 社区 网 络 、 主 题 、 主 题 的 时 间 轴 等 等 。 坚 无 疑问 ， 一 个 人 可 
以 人 花费 毕生 的 精力 研究 这 种 现象 。 然而， 现在， 我们 只 是 花费 接 下 来 30 页 左右 的 内 容 进 行 
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相关 研究 。 


焦虑 (+1SD)IE | 21% 
愤怒 (+1SD)IE il 34% 
-16%[ | 悲伤 (+1SD) 
敬 导 (+1SD) 0 30% 
积极 (+1SD) 必 | 13% 
情绪 化 (+1SD) 四 一 18% 

兴趣 (+1SD) 旺 | 25% 
惊讶 (+1SD)IE 14% 

实用 价值 (+1SD)IEAA | 30% 

处 于 主页 顶部 的 时 间 
(+1SD) 20% 


—20% 0% 20% 40% 


6. 2 获取 分 圣 的 数量 和 内 容 








在 开始 探索 哪些 特征 会 使 得 内 容易 于 共享 之 前 ， 我 们 手头 上 需要 足够 的 内 容 。 我 们 还 
需要 每 份 内 容 在 各 种 社交 网 络 上 的 分 享 识 数 。 竺 运 的 是 ， 获 取 这 些 并 没有 多 大 困难 。 我 会 
使 用 网 站 ruzzit.com。 

这 是 一 个 相对 较 新 的 网 站 一 一 它 仍 处 于 beta 测 试 阶段 ,但 它 会 跟踪 最 常 被 分 享 的 内 容 ， 
这 正 是 我 们 需要 的 ， 如 图 6-2 所 示 。 

我 们 将 从 页 面 中 抓 取 内 容 一 一 不 驻 的 是 ， 没 有 可 以 直接 使 用 的 API 接口 。 而 且 ， 因 为 
该 网 站 使 用 了 无 限 深 动 的 机 制 ， 我 们 需要 使 用 第 3 章 的 老 朋 友 ，Selenium 和 PhantomJS 。 
现在 开始 抓 取 吧 。 




















(D 译 者 注 : 至 少 在 原著 作者 撰写 本 书 的 时 候 是 如 此 。 
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Coverage, CNN provides special reports, video, audio, photo galleri... 
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入 6-2 


我 们 将 从 最 初 需 要 导入 的 包 开 始 。 

import requests 

import pandas as pd 

import numpy as np 

import json 

import time 

from selenium import webdriver 

pd.set option('display.max colwidth', 200) 


接 下 来 ， 我 们 将 设置 Selenium 浏 览 器 。 这 里 仪 选 择 该 站 点 过 去 一 年 的 文章 来 生成 URL 
网 址 列表 。 需 要 设 定 浏 览 器 的 大 小 ， 以 便 获 得 标准 的 巢 面 外 观 ， 并 日 每 隔 15 秒 请 求 一 次 ， 
这 事 关 礼仪 “。 我 们 也 将 向 下 滚动 相当 于 50 页 的 内 容 (每 页 有 10 篇 文章 )。 


browser = webdriver.PhantomyJSs () 





browser.set window size(1080,800) 
browser.get ("http://www.ruzzit.com/en-US/Timeline?media=Articlesé&timeline= 
Yearlg&networks=All") 

time .sleep (3) 
Pp9g_scroll count = 50 
while pg_ scroll count: 

browser .execute script("window.scrollTo(0, document .body .scrollHeight);") 
time .sleep (15) 

pg_scroll count -= 1 
titles = browser.find elements by class name ("article title") 





(D 译 者 注 : 频繁 地 扑 取 网 站 内 容 将 对 其 服务 器 造成 不 必要 的 压力 ， 作 者 认为 这 样 做 是 不 合 礼 仪 的 。 
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link class = browser.find elements by class name ("link read more article") 
stats = browser.find elements by class name ("ruzzit statistics area") 


在 最 后 一 节 中 ， 我 们 选择 了 分 析 所 需 的 页 面 元 素 。 接 下 来 ， 需 要 进一步 解析 它们 以 获 
取 文 本 信息 。 


我 在 分 析 中 去 除 Twitter 所 提供 的 分 娃 人 次 数 。 该 公司 在 2015 年 年 压 决 定 从 其 标准 API 
中 删除 此 项 数据 。 鉴 于 此 ， 其 展示 的 次 数 不 太 可 菲 。 为 了 避免 数据 被 污染 的 风险 ， 最 好 和 直 
接 去 除 这 些 信息 。 


all data = [] 
for title, link, stat in zip(titles, link class, stats): 
all data.append( (title. text, \ 
link.get attribute ("href"),\ 
stat.find element by class name ("col-md- 
12") .text.split(' shares') [0], 
stat.find element by class name ("col-md- 
12") .text.split('tweets\n') 
[1] .split('likes\n0') [0], 
stat.find element by class name ("col-md- 
12") .text.split('1l's\n') [1] .split(' pins') [0], 
stat.find element by class name ("col-md- 
12") .text.split('pins\n') [1])) 


接 下 来 ， 我 们 将 它 放 入 一 个 数据 框 。 
df = pd.DataFrame (all data, columns=['title', 'link', 'fb', 'lnkdn' 


'pins', "date']) 
df 


上 述 代码 生成 图 6-3 的 输出 。 
pm 日 期 | 


http://www.ruzzit.com/en- 18/3/2015 
Walker flap exposes GOP rift on Iowa's sacred status - CNN US/Redirect/Link? 1.2M |1,911 |8,693 18.41 
media=653892 
http://www.ruzzit.com/en- 24/1/2016 
What Career Should You Actually Have? - BuzzFeed US/Redirect/Link? 5.1M |1,559 |10.9k 21:00 
media=1928328 | 
http:/www.ruzzit.com/en- 24/1/2016 
What State Do You Actually Belong In? - BuzzFeed US/Redirect/Link? 4.1M |76 5,465 15:15 
media=1927663 : 
http://www.ruzzit.com/en- 1/2/2016 
Which "Grease" Pink Lady Are You? - BuzzFeed US/Redirect/Link? 2,760 03.46 
media=1960941 
[| I 


























和 2 6-3 
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这 是 一 个 好 的 开始 ,但 我 们 需要 清理 数据 。 你 会 注意 到 所 有 的 链接 都 是 通过 ruzzit.com 
的 重 定 癌 。 我 们 将 通过 跟 踩 链接 ， 检 索 原 始 站 点 的 链接 来 解决 这 个 问题 ， 具 体 如 下 。 
df = df.assign(redirect = df['link'] .map (lambda x: eduests .get(x) .url)) 


此 行 代码 使 用 requests 库 检索 故事 的 真实 URL ( 重 定向 之 后 的 )， 如 图 6-4 所 示 。 
链接 | |inkdn|pins | 日 期 | 重 定向 后 的 链接 


http://www.ruzzit.com/en- 18/3/2015 

US/Redirect/Link? 1.2M |1,911 |8,693 18:41 http://Wwww.cnn.com/ 

media=653892 

http://Wwww.ruzzit.com/en- 24/1/2016 

US/Redirect/Link? 5.1M |1,559 |10.9k 21.00 http://www.buzzfeed.com/ashleyperez/what-career-should-you-have 
media=1928328 








http://www.ruzzit.com/en- 24/1/2016 

US/Redirect/Link? 4.1M |76 5,465 15:15 http://www.buzzfeed.com/awesomer/what-state-do-you-actually-belong-in 
media=1927663 

http://www.ruzzit.com/en- 1/2/2016 

US/Redirect/Link? 3M 2,760 03:46 http://www.buzzfeed.com/louispeitzman/which-grease-pink-lady-are-you 
media=1960941 


6-4 





如 条 现 在 检查 数据 框 DataFrame， 我 们 可 以 看 到 该 网 站 的 原始 链接 。 你 会 注意 到 在 
第 一 行 有 CNN 的 主页 。 和 仔细 研究 后 ， 发 现 有 17 个 改 事 指 辣 某 个 网 站 的 主页 。 这 是 因为 它 
们 已 被 删除 。 男 一 个 原因 古 一 些 链 接 指 辐 的 是 图 像 而 不 是 文章 。 


以 下 代码 将 识别 这 两 个 问题 ， 并 删除 有 问题 的 行 。 
def check home (x) : 

if '.com' in X: 

if len(x.split('.com') [1]) < 2: 

return 1 





else: 

return 0 

else: 

return 0 
def check img (x): 

if '.gif' in x or '.Jpg' in x: 

return 1 

else: 

return 0 
df = df.assign(pg missing = df['pg missing'] .map (check home)) 
df = df.assign(img link = dfl['redirect'] .map (check img)) 
dfc = df[ (df['img link']'=1)& (df['pg missing']'=1)] 
dfc 


上 述 代 人 码 生 成 图 6-5 的 输出 。 
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What Garser 

Should You http:iry ,nuzzit. Gomien 
站 可 二 到 | Uedirect Link? 
Hewa? = Tagd 间 =1S2E329 
BsFeed 


‘What Stats Co 


tem 放 LEGTFTUIGT- | 
YOU Actual | PY WwW COM en z | daon16 
Baiong r= | PdirectLink? : MY | 16-15 
i FE i 
9 | 可 国 二 1 B27 了 


ble re Mri. Cn Tei- 
LR odirectiLink? 
Te = 1 Dd1 


le016 
Da6 





























图 6-5 


现在 让 我 们 进行 下 一 步 ， 获 取 完 整 的 文章 和 其 他 元 数据 。 束 如 上 一 草 ， 我 们 将 使 用 
embed.1ly 中 的 API 接口。 如果 对 于 其 设置 你 需要 帮助 ， 请 返回 前 一 曹参 看 详细 介绍 。 这 
里 将 使 用 embedqd .1y 来 检索 文章 的 标题 、HTML 和 一 些 附加 数据 ， 例 如 引用 和 图 像 。 


def get data (x) : 
try: 





data = requests.get('https://api.embedly.com/l1l/extract? 
key=SECRET KEY7é&url=' + x) 

json data = json.1loads (data.text) 

return json data 
except: 

print('Failed') 

return None 
dfc = dfc.assign(jJson data = dfcl['redirect'] .map (get data)) 
dfc 


上 述 代 人 码 生 成 图 6-6 的 输出 。 


Tpe': Piml’, ead': None, Tavicon colors' [[ waght’; 
D0.B704101582, ‘eol’: (223, 2, 41), T weighit: 
0D.3295896d3E, cok: [249, 249, B49 "origirial_udl': 
Tips a Durrleed. Gemmas... 




















Tiype': himl', laad': Nona, "fevicon_colors': [[ velght’: 


0.67O0410T562, "cok: 233, $2, 了 下 全 本 日 ht 
0 站 96436, cokor: [2A 和, 2 条 四 origirial_uri'; 
Phiten burrieed, comyan,, 


Trpe': html', ead': Nons, Tavicaon colors': [[ waght’: 
D0.B704101582, color': (2, 52, 37]), [weighit’: 
0.3295896d36, color': [249, 249, 249]|, ‘original_udl': 
Tbe ra. burrleed. Gearule... 





图 6-6 
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现在 每 篇 文章 都 有 一 列 JSON 数据 。 这 里 将 解析 这 个 JSON 数据 ， 抽 取出 我 们 有 兴趣 
探索 的 每 个 特征 列 。 先 从 基本 信息 开始 : 网 站 、 标 题 、HTML 和 图 片 数 量 。 


def get title (X) : 
try: 
return x.get('title') 
except: 
return None 
def get site (x): 
trYy: 
return x.get('provider name') 
except: 
return None 
def get images (x): 
try: 
return len(x.get('images')) 
except: 
return None 
def get html (x) : 
try: 
return x.get('content') 
except: 
return None 
dfc = dfc.assign(title = dfc['json data'] .map (get title)) 
dfc = dfc.assign(site = dfc['json data'] .map (get site)) 
dfc = dfc.assign(img count = dfc['json data'] .map (get images)) 
dfc = dfc.assign (html = dfc['json data'] .map (get html)) 
dfc 


上 述 代 人 码 生 成 图 6-7 的 输出 。 


| html 


<div>\n<p>lve heard the assertion made time and time again: Being a stay-at-home mom is not akin to 
They're right. I'm not .… 


<div>\n<p>Astronomers have spotted a strange mess of objects whirling around a distant star Scientist 
closer look. </p>\n<p>... 





图 6-7 


大 多 数 行 都 成 功 抽取 了 页 面 的 HIML 内 容 ， 但 是 有 一 些 却 没 有 返回 任何 值 。 检 查 了 至 
白 的 行 之 后 ， 我 们 发 现 它 们 似乎 主要 来 自 BuzzFeed 这 个 网 站 。 这 是 合理 的 ， 因 为 这 种 页 面 
主要 是 图 片 和 小 测验 。 这 和 是 一 个 小 小 的 烦恼 ， 我 们 不 得 不 将 束 痢 用 一 下 。 
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现在 让 我 们 取出 HTML 并 将 其 转换 为 文本 。 这 里 将 使 用 BeautifulSoup 库 为 我 们 


实现 这 个 目标 。 


from bs4 import BeautifulSoup 
def text from html (x): 
try: 
soup = BeautifulSoup (x, 'lxml') 
return soup.get text () 
except: 


return None 


dfc = dfc.assign(text = dfc['html'] .maP (text from html)) 


dfc 
上 述 代码 生成 图 6-8 的 输出 。 


现在 请 加 额外 的 特征 。 我 们 将 旋 加 页 面 上 第 一 个 图 像 中 最 
突出 的 颜色 。 由 embed.1y 生成 的 JSON 数据 保存 了 每 个 图 像 的 
RGB 值 ， 这 些 值 体现 了 对 应 图 像 的 颜色 ， 所 以 这 将 是 一 个 简单 
的 任务 。 

import matplotlib.colors as mpc 

def get rgb (x): 

try: 
if x.get('images'): 





\nl've heard the assertion 
made time and time again: 
Being a stay-at-home mom 
is not akin to having a "real 
job. And as a stay-at-home 
mom, |'m here to tell you,.， 
They re right. | m not sure 
why... 





WAstronomers have spotted 
a strange mess of objects 
whirling around a distant 
star. Scientists who search 
for extraterrestrial 
civilizations are scrambling 





图 6-8 


main Color = x.get('images') [0] .get('colors') [0] .get('color') 


return main color 
except: 
return None 
def get hex (x): 
try: 
if x.get('images'): 


main Color = x.get('images') [0] .get('colors') [0] .get('color') 


return mpc.rgb2hex ([ (x/255) for x in main color]) 


except: 


return None 


dfc = dfc.assign (main hex 


dfc['json data'] .map (get hex)) 


dfc = dfc.assign (main rgb = dfc['json data'] .map (get rgb)) 


dfc 


上 述 代 码 生 成 图 6-9 的 输出 。 
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\nl've heard the assertion 

made time and time again: 

Being a stay-at-home mom 

is not akin to having a "real” |[243, 245, 
job. And as a stay-at-home |245] 
mom, |'m here to tell you... 


#f3f95f5 


They re right. |'m not sure 
why... 


\nAstronomers have spotted 
a strange mess of objects 
whirling around a distant 
star. Scientists who search 
for extraterrestrial 
civilizations are scrambling 





图 6-9 
et 
六 进 制 值 。 稍 后 检查 图 像 颜 色 的 时 候 也 会 使 用 这 个 信息 。 


我 们 几乎 完成 了 数据 的 处 理 部 分 ， 不 过 还 需要 转换 一 些 从 Ruzzit 获取 的 数字 。 我 们 所 
拥有 的 分 时 次 数 是 用 于 显示 目的 ， 而 不 是 用 于 分 析 的 格式 ， 如 图 6-10 所 示 。 


kdn pins | 日期 


What Career 
http://www.ruzzit.com/en- 

Should You | 24/1/2016 
US/Redirect/Link? 5.1M |1,559 |10.9k 

Actually Have? ， 21:00 
media=1928328 

- BuzzFeed 

















What State Do . 

You Actuall http://www.ruzzit.com/en- a 

ou /clua’y |UsyRedirect/Link? 4.1M |76 

Belong In? -|media-=1927663 15:15 

BuzzFeed 

Which 

1 i http://www.ruzzit.com/en- 

a En US/Redirect/Link? 3M 2,760 wn 
Y Are YOu |media=1960941 : 

- BuzzFeed 


图 6-10 











我 们 需要 清理 fp、lnkdn、pins 和 date (日 期 ) 列 ， 将 它们 从 字符 串 表 示 转 化 为 
数字 类 型 ， 如 下 上 所 示 。 


def clean counts (x): 
if 'M' in str (x): 
d= x.split('M')[0] 
dm = float(d) * 1000000 
return dm 
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elif 'Kk' in Stz(XxX) : 
d= x.split('k')[0] 
dk = float(d.replace(',','')) * 1000 
return dk 
elif ',' in str (x): 
Q = x.replace(',','') 
return int(d) 
else: 
return x 
dfc = dfc.assign(fb = dfc['fb'] .map (clean counts)) 
dfc = dfc.assign(lnkdn = dfc['lnkdn'] .map (clean counts)) 
dfc = dfc.assign(pins = dfc['pins'] .map (clean counts)) 
dfc = dfc.assign(date = pd.to datetime (dfc['date'], dayfirst=True)) 
dfc 


上 述 代码 生成 图 6-11 的 输出 。 
kn pins 上 晶 期 


What Career |http://www.ruzzit.com/en- 
Should You US/Redirect/Link? 5100000 |1559 |10900 
Actually Have? | media=1928328 


What State Do |http://www.ruzzit.com/en- 
You Actually |US/Redirect/Link? 4100000 | 76 5465 
Belong In? media=1927663 


图 6-11 














最 后 ， 我 们 将 添加 最 后 一 个 特征 ， 每 列 的 字数 统计 。 我 们 可 以 通过 空格 来 切 分 文本 ， 
然后 采取 最 终 的 计数 。 操 作 如 下 。 


def get word count (x): 





if not x is None: 

return len(x.split(' ')) 
else: 

return None 


dfc = dfc.assign (word count = dfcl['text'] .map (get word count)) 
dfc 


上 述 代码 生成 图 6-12 的 输出 。 


随 独 我 们 的 数据 准备 就 绪 ， 现 在 可 以 开始 进行 分 机 了 。 我 们 将 符 试 寻找 什么 样 的 特征 
会 使 内 容 具 有 更 高 的 传播 度 。 
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\nl've heard the assertion made time and time again: Being a stay-at-home mom is not akin to having a "real" job. And as a stay-at- 
home mom, |m here to tell you. They're right. |'m not sure why... 


mAstronomers have spotted a strange mess of objects whirling around a distant star. Scientists who search for extraterrestrial 


civilizations are scrambling to get a closer look. nN NNKevin Mor... 


What would you say if you found out that our public schools were teaching children that it is not true that is wrong to kill people for 
fun or cheat on tests? Would you be surprised?\n| was. A... 


Are you mindlessly twisting your hair or biting your nails as you read this article? New research from the University of Montreal 
suggests that compulsive behaviors like these might say more abo... 





6-12 


6. 3 探索 传播 性 的 特征 





我 们 在 这 里 收集 的 故事 代表 了 在 过 去 一 年 中 ， 大 约 500 个 传播 度 最 高 的 作品 。 我 们 将 
符 试 解构 这 些 文 草 来 寻找 使 它们 广 为 流传 的 共同 特征 。 先 从 图 像 数 据 开 始 。 


6.3.1 探索 图 像 数 据 


让 我 们 来 看 看 每 个 改 事 中 包含 的 图 片 数量 。 我 们 运行 一 个 数值 统计 , 然后 
绘制 图 表 。 

dfc['img count'] .value_counts () .to frame ('count') 

上 述 代 码 生 成 图 6-13 的 输出 。 

现在 ， 让 我 们 绘制 这 些 信 息 。 


fig, ax = plt.subplots (figsize=(8,6)) 














y = dfc['img count'] .value counts() .sort index () 

x = y.sort index() .index 

plt.bar(x, y, color='k', align='center') 
plt.title('Image Count Frequency', fontsize=16, y=1.01) 
ax.set xlim(-.5,5.5) 

ax.set ylabel('Count') 

ax.set xlabel('Number of Images ') 


上 述 代码 生成 图 6-14 的 输出 。 

图 6-14 中 的 数字 已 经 令 人 惊讶 了 。 绝 大 多 数 的 故事 里 都 有 五 张 图 片 ， 而 只 有 一 张 甚至 
没有 图 片 的 故事 是 相当 罕见 的 。 

因此 ， 我 们 发 现 人 们 倾 回 于 分 人 享 包含 大 量 图 片 的 内 容 。 下 面 来 看 看 这 些 图 像 中 最 常见 
的 颜色 。 
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mci = dfc['main hex'] .value counts() .to frame('count') 





mc1i 
上 上述 代码 生成 图 6-15 的 输出 。 
拥有 这 个 数量 图 片 的 故事 数量 
图 片 数量 
图 6-14 图 6-15 


图 6-15 看 上 去 不 是 很 有 帮助 ， 因 为 我 们 并 不 理解 HEX 值 代表 什么 颜色 。 不 过 ， 这 里 
可 以 使 用 pandas 中 的 一 个 新 功能 ， 称 为 conditional formatting， 它 可 以 帮助 我 们 。 


mci['color'] = "' ' 





def color cells (x): 
return ‘background-color: ' + x.index 
mci.style.apply (color cells, subset=['color'], axis=0) 


上 述 代 人 码 生 成 图 6-16 的 输出 。 


这 当然 很 用 助 。 我 们 可 以 看 到 一 些 颜 色 ， 例 如 淡 申 色 、 黑 色 和 绿色 《〈 这 里 是 以 灰 度 
演 染 的 )， 但 颜色 的 粒度 是 如 此 之 细 ， 总 共有 超过 450 个 唯一 的 值 。 让 我 们 使 用 一 点 聚 闫 
的 技术 将 其 转化 成 更 容易 管理 的 范围 。 由 于 这 里 有 每 个 颜色 的 RBG 值 , 我 们 可 以 创建 一 个 
三 维 空 间 ， 并 使 用 K-means 算法 来 聚集 它们 。 我 不 会 在 这 里 讨论 算法 的 细 季 ， 不 过 它 是 一 
个 相当 人 徐 单 的 迭代 算法 ， 它 通过 测量 每 个 数据 点 到 到 中 心 点 的 距离 来 生成 聚 类 ， 并 友 代 式 
地 重复 该 过 程 。 算 法 需要 我 们 选择 k 的 值 ， 或 者 说 是 期 望 的 聚 类 数量 。 由 于 RGB 值 的 范围 
是 从 0 到 256， 我 们 将 使 用 256 的 平方 根 ， 也 就 是 16。 如 此 一 来 ， 我 们 可 获得 一 个 可 管理 
的 数量 ， 同 时 保留 调 色 板 的 特点 。 

我 们 首先 将 RGB 值 拆 分 成 单独 的 列 ， 如 下 所 示 。 
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defget csplit (x): 
try: 
return x[0], x[1], x[2] 
except: 
return None, None, None 
dfc['reds'], dfc['greens'], dfc['blues'] = 
zip(*dfc['main rgb'] .map (get csplit)) 


接 下 来 ， 我 们 将 使 用 它 来 运行 我 们 的 K-means 模型 并 获取 中 心 值 。 


from sklearn.cluster import KMeans 





clf = KMeans (n clusters=16) 

clf.fit(dfc[['reds', ‘greens', 'blues']] .dropna()) 

clusters = pd.DataFrame (clf.cluster centers , columns=['r', 'g', 'b']) 
clusters 


上 述 代 人 码 生 成 图 6-17 的 输 


EE 


O 


1.600000 “|82.000000 |156.200000 
#3dd876 8 |132.714286 56.428571 |30.857143 
#f4f8f9 2 “” 国 9 |79.842105 69.026316 |63.473684 





图 6-16 图 6-17 





现在 , 从 每 页 的 自 张 图 片 中 ,我 们 获得 了 16 个 最 受 欢 迎 的 主流 颜色 。 接 下 来 使 用 pandas 
的 DataFrame .style() 方 法 以 及 我 们 刚刚 创建 的 为 单元 格 填 色 的 函数 , 来 看 看 这 些 主流 
颜色 长 什么 样子 。 这 里 需要 将 索引 设置 为 等 于 三 列 中 十 六 进 制 值 那 列 ， 以 使 用 我 们 的 
color cells 图 数 ， 共 体 如 下 。 


def hexify (x): 
rgb = [round(x['r']), round(x['g']), round(x['b'])] 
hxc = mpc.rgb2hex([ (x/255) for x in rgb]) 





return hxc 
clusters.index = clusters.apply (hexify, axis=1) 
clusters['color'] = "' ' 


clusters.style.apply (color cells, subset=['color'], axis=0) 
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上 述 代 人 码 生 成 图 6-18 的 输出 。 


Cr 
ooe 7017en5 | 00 51570 i0020750 | 
CE CE 


#96886f |149.818182 |136.227273 |111.136364 


#909a9d |144.434783 |154.478261 |156.521739 | 


#d93733 |217.25 55.25 50.75 


#354967 |52.545455 |72.636364 |103.272727 


图 6-18 











那么 ,你 看 到 了 。 这 些 是 广 为 流 传 的 内 容 中 最 第 见 的 闫 色 (至 少 在 第 一 张 图 像 中 )。 比 
预期 更 单调 一 点 : 虽然 有 一 些 蓝 色 和 红色 ， 但 多 数 还 是 标 色 这 种 灰 蒙 蒙 的 色调 。 


现在 让 我 们 继续 检视 故事 的 标题 。 
6.3.2 探索 标题 





我 们 将 从 创建 一 个 函数 开始 ， 使 用 它 来 检查 最 常见 的 元 组 。 将 其 设置 好 之 后 ， 将 来 在 
正文 上 也 可 以 使 用 它 。 


from nltk.util import ngrams 
from nltk.corpus import stopwords 
import re 
def get word stats (txt series, n, rem stops=False): 
txt words = [] 
txt len = [] 
for w in txt series: 
if w is not None: 
if rem stops == False: 


word list = [x for x in ngrams (re.findall(' [a-z0- 
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9']+', w.lower()), n)] 

else: 

word list = [y for y In ngrams([x for x in 

re.findall(' [a-z0-9']+', WwW.lower())\ 

IE x not In stopwords .words('english')], n)] 

word list len = len(list(word list)) 

txt words .extend (word list) 

txt len.append (word list len) 
return pd.Series (txt words) .value counts() .to frame('count'), 
pd.DataFrame (txt len, columns=['count']) 
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这 里 有 很 多 要 解释 ， 所 以 让 我 们 未 步 分 析 。 我 们 创建 了 一 个 函数 并 接收 Series、 一 个 
as 整数 决定 了 我 们 将 用 于 n 元 语法 解析 的 x， 而 布尔 值 决定 我 们 





否 排 除 停 用 词 。 函 数 返 回 每 行 “的 元 组 数目 和 每 个 元 组 的 频率 。 


下 面 让 我 们 在 标题 上 运行 这 个 函数 ， 暂 时 你 持 集 用 词 。 先 从 一 元 语法 开始 。 


hw,hl1 = get word stats(dfc['title'], 1, 0) 
hl 


上 述 代码 生成 图 6-19 的 输出 。 
现在 ， 每 个 标题 的 字数 都 有 了 ， 让 我 们 来 看 看 其 统计 信息 。 


hlL.dqescLzriIbe () 


上 述 代 人 码 生 成 图 6-20 的 输出 。 








图 6-19 图 6-20 


QO 译 者 注 : 也 就 是 每 篇 文章 。 
@ 译 者 注 : 这 里 的 元 组 是 指 n 元 语法 生成 的 元 组 。 
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我 们 可 以 看 到 传播 广泛 的 故事 其 标题 长 度 的 中 位 数 恰 好 在 11 个 字 。 让 我 们 来 看 看 最 帝 
用 的 那些 单词 ， 如 图 6-21 所 示 。 

这 种 信息 不 是 很 有 价值 ， 但 它 符 合 我 们 的 期 望 。 让 我 们 来 看 看 二 元 语法 的 同类 信息 。 


hw,hl = get word stats (dfc[ 'title']，2，0) 
hw 


上 述 代 人 码 生 成 图 6-22 的 输出 。 








people, who) 


(donald, trump) 


| 次数 
(pictures, that) 
7 
7 
7 





图 6-21 图 6-22 


这 肯定 是 更 有 趣 。 从 中 可 以 看 到 标题 中 的 某 些 部 分 反复 出 现 。 最 突出 的 两 个 是 (donalg,， 
trump“) 和 (die，at)。Trump 是 有 道理 的 ， 因 为 他 做 了 一 些 抓 眼球 的 声明 ， 但 令 人 惊讶 的 
是 看 到 关于 死亡 的 标题 。 快 速 浏 览 过 去 一 年 的 头条 新 闻 ， 发 现 一 些 知 名 人 物 最 近 去 世 了 ， 
所 以 这 也 有 一 定 的 意义 。 

现在 让 我 们 去 掉 停 用 词 ， 再 次 运行 代码 。 


hw,hl = get word stats(dfc['title'], 2, 1) 
hw 


上 述 代码 生成 图 6-23 的 输出 。 

再 次 ， 我 们 看 到 了 许多 期 竺 的 东西 。 看 起 来 如 果 我 们 改变 数字 的 解析 方式 〈 用 单个 标 
识 符 ， 例 如 [number] ， 来 殖 换 每 一 个 数字 )， 可 能 会 看 到 更 多 这 样 的 元 组 排名 靠 前 。 如 果 
你 愿意 答 试 ， 我 会 把 这 个 练习 留 给 你 。 

让 我 们 再 来 看 看 三 元 语法 。 


hw,hl = get word _ stats (dfc[ 'title']，3，0) 

















ee 





只 译 者 注 : Donald Trump 是 美国 2016 年 总 统 大 选 的 候选 人 之 一 。 
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上 述 代 人 码 生 成 图 6-24 的 输出 。 


图 6-23 图 6-24 


Te 
一 
onpeone wn 


[i 


(dies, at, 83) 


(are, too, real) 


(pictures, that, will) 
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看 来 ， 元 组 包括 的 词语 越 多 ， 标 题 越 来 越 像 经 典 的 BuzzFeed 风格 。 让 我 们 看 看 事实 是 
售 如 此 。 我 们 还 没 看 过 哪个 网 站 产生 的 病毒 式 传播 故事 最 多 , 这 里 通过 图 表 来 看 看 BuzzFeed 














dfc['site'] .value counts() .to frame () 


上 述 代 人 码 生 成 图 6-25 的 输出 。 


fe 
se 
we 
wm 
[IT 
oem 
CR 
nm 
em 


6-25 
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我 们 可 以 清楚 地 看 到 ，BuzzFeed 在 名 单 中 占 主导 地 位 ， 和 第 二 位 Huffington Post 拉 开 
了 明显 的 距离 ， 而 这 个 网 站 也 有 Jonah Peretti 的 参与 。 看 起 来 研究 病毒 式 传 播 的 科学 可 以 
产生 巨大 的 收益 。 

到 目前 为 止 ， 我 们 已 经 检视 了 图 像 和 标题 ， 接 下 来 继续 观察 故事 的 正文 。 
6.3.3 探索 故事 的 内 容 

在 上 一 节 中 ， 我 们 创建 了 一 个 函数 来 发 现 故 事 标题 中 常见 的 n 元 语法 ， 现 在 应 用 这 个 
国 数 来 探索 故事 的 完整 内 容 。 


我 们 将 这 样 开始 : 去 除 停 用 词 ， 使 用 二 元 组 。 因 为 与 故事 主体 相 比 ， 标 题 是 非常 短小 
的 ， 所 以 包含 停止 词 是 有 一 定 意义 的 ， 但 在 故事 正文 中 ， 通 常 去 除 它 们 是 更 合理 的 做 法 。 























hw,hl1 = get word stats(dfc['text'], 2, 1) 
hw 


上 述 代 码 生 成 图 6-26 的 输出 。 

有 趣 的 是 ， 我 们 在 标题 中 看 到 的 轻松 愉快 的 元 组 在 这 里 完全 消失 了 。 正 文 充满 了 关于 
了 恐怖 主义 、 政 治 和 种 族 关 系 的 讨论 。 

标题 的 内 容 是 轻松 愉快 的 ， 而 正文 的 内 容 却 是 黑暗 而 定 有 和 争议 的 ， 这 怎么 可 能 ? 我 的 
3 pusolies WHS Look LIke Elves” | ”Tis Tiotonmy 6F To Race 
Relations” 这 类 文章 的 字数 要 少 的 多 ”。 


让 我 们 再 来 看 看 一 个 实验 。 这 次 将 评估 故事 正文 的 三 元 组 。 














hw,hl = get word stats(dfc['text'], 3, 1) 
hw 


上 述 代 人 码 生 成 图 6-27 的 输出 。 
我 们 似乎 突然 进入 了 广告 和 社区 活动 的 领域 。 有 了 这 些 ， 让 我 们 继续 构建 内 容 评分 的 
预测 模型 。 








(D 译 者 注 : 作者 的 意思 是 标题 通 毅 长 度 都 非常 短 ， 而 正文 的 长 度 相互 之 间 差 异 很 大 ， 所 以 造成 了 统计 络 采 近 然 。 
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图 6-26 图 6-27 


6.4 构建 内 容 评 分 的 预测 模型 





现在 让 我 们 使 用 所 学 到 的 东西 来 创建 一 个 模型 ， 它 可 以 根据 给 定 的 内 容 ， 预 估 其 被 分 
享 的 次 数 。 我 们 将 使 用 前 文 已 经 创建 的 特征 ， 以 及 几 个 额外 的 特征 。 

理想 情况 下 ， 我 们 需要 一 个 更 大 的 内 容 样 本 ， 特 别 是 有 更 多 分 享 次 数 的 内 容 。 尽 管 这 
样 ， 我 们 还 是 束 手 头 上 的 数据 进行 操作 。 

我 们 将 使 用 一 种 称 为 随机 森林 回归 (random forest regression) 的 算法 。 在 前 面 的 章节 
中 ， 我 们 看 过 随机 森林 一 个 更 典型 的 实现 ， 束 是 基于 分 类 的 模型 。 而 这 里 ， 我 们 将 使 用 回 
归并 壬 试 预测 分 侠 的 次 数 。 当 然 ， 我 们 也 可 以 将 分 享 次 数 划 分 为 不 同 的 范围 ， 转 化 成 分 类 
问题 ， 但 是 对 于 连续 变量 的 处 理 ， 最 好 还 是 使 用 回归 的 技术 。 

首先 ， 我 们 将 创建 一 个 极其 人 简单 的 模型 。 使 用 的 特征 包括 图 像 的 数量 、 网 站 和 字数 。 
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我 们 将 使 用 Facebook 的 Like 数 来 训练 模型 。 


首先 导入 sci-kit 学 习 库 ， 然 后 这 样 预 处 理 数据 : 删除 包含 null 值 的 行 ， 重 置 行 的 索引 
编号 ， 最 后 将 数据 框 切 分 为 训练 集 和 测试 集 。 
from sklearn.ensemble import RandomForestRegressor 
all data = dfc.dropna(subset=['img count', 'word count']) 
all data.reset index (inplace=True, drop=True) 
train index = [] 
test index = [] 
for i In all data.index: 
result = np.random.choice(2, p=[.65,.35]) 
if result == 
test index.append (i) 
else: 
train index.append (i) 


我 们 使 用 一 个 随机 数 生成 喜来 确定 哪些 行 的 内 容 《〈《 基 于 它们 的 索引 ) 将 被 放置 在 哪个 
集合 中 ， 其 概率 的 分 配 大 约 为 3 和 1/3。 设 定 这 样 的 概率 ， 可 以 确保 我 们 获得 的 训练 样本 
数量 约 为 测试 样本 数量 的 两 倍 。 如 下 所 示 ， 我 们 可 以 将 其 打印 出 来 。 

print('test length:', len(test index), '\ntrain length:', len(train index) ) 


上 述 代码 生 成 图 6-28 的 输出 。 test length: 140 


现在 ,我 们 将 继续 准备 数据 。 接 下 来 ,需要 为 不 同 的 网 站 设置 一 一 
分 类 型 的 编码 。 目 前 ，DataFrame 对 象 含 有 每 个 站 点 用 字符 串 表 
示 的 名 称 。 我 们 需要 使 用 虚构 的 编码 。 这 将 为 每 个 站 点 创建 一 个 列 。 如 果 该 行 源 于 该 特定 
的 网 站 ， 那 么 该 列 将 用 1 填充 ， 所 有 对 应 其 他 网 站 的 列 用 0 填充 。 如 下 处 理 。 


sites = pd.get dummies (all datal'site']) 














图 6-28 











sites 

上 述 代码 生成 图 6-29 的 输出 。 

虚构 的 编码 可 以 在 图 6-29 中 看 到 。 

现在 我 们 继续 将 数据 分 成 训练 集 和 测试 集 ， 如 下 所 示 。 


y_train = all data.iloc[train index]['fb'] .astype (int) 

X train nosite = all data.iloc[train index] [['img count', 'word count']] 
X train = pd.merge(X train nosite, sites.iloc[ltrain index], 

left index=True, right index=True) 

y_test = all data.iloc[test index]['fb'] .astype (int) 

X test nosite = all data.iloc[test index] [['img count', 'word count']] 

X test = pd.merge(X test nosite, sites.ilocl[test index], left index=True, 
right index=True) 
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这 样 , 我 们 设置 了 x_test、X_train、y test 和 y train 变量。 现在 使 用 它们 构 
建 模型 。 


clf = RandomForestRegressor(n estimators=1000) 
clf.fit(X train, y train) 


通过 这 两 行 代码 ， 我 们 训练 了 模型 。 下 面 ， 使 用 这 个 模型 来 预测 测试 集中 的 数据 ， 能 
够 收获 多 少 Facebook 的 Like。 


y_actual = y test 

deltas = pd.DataFrame (list (zipl(y pred, y actual, (y pred - 
y_actual)/(y actual))), columns=['predicted', ‘actual', 'delta']) 
deltas 


上 述 代 码 生 成 图 6-30 的 输出 。 


在 这 里 ， 我 们 看 到 并 排 的 预测 值 、 实 际 值 和 产值 百分比 。 下 面 看 看 这 个 结果 的 描述 性 
统计 。 


deltas['delta'] .describe() 
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上 述 代码 生成 图 6-31 的 输出 。 


Te | 
国 ETIIEEEZ 
加 CZ 
区 
国 EECEEZZ 
| pr 


5 259866.000000 |363000 |-0.284116 卜 将 汪 “053903 
.587523 
6 262380.500000 |1100000 |-0.761472 .774626 
.297857 
318108.000000 |360000 |-0.116367 i 
8 251200.000000 |337000 |-0.254599 .277858 
.982869 

9 310909.750000 |336000 |-0.074673|| 名 称 : delta, dtype: float64 





图 6-30 图 6-31 


这 看 起 来 很 惊人 。 错 误 的 中 位 数 是 0! 好 吧 ， 不 扯 的 是 ， 这 不 是 一 个 特别 有 用 的 信息 ， 
因为 在 两 侧 正 和 负 的 错误 都 存在 ， 并 且 它 们 会 中 和 平均 值 ， 束 是 我 们 在 这 里 所 看 的 。 让 我 
们 来 看 一 个 更 具 信 息 性 的 指标 来 评估 这 个 模型 。 我 们 将 把 均 方 根 误 甜 〈 也 残 是 标准 震 ) 比 
上 实际 平均 值 。 

首先 ， 来 说 明 一 下 为 什么 这 样 计算 更 有 价值 ， 让 我 们 在 两 个 示例 的 数据 序列 上 运行 以 
下 场景 。 


a = pd.Series([10,10,10,10]) 
b = pd.Series([12,8,8,12]) 
np.sqrt(np.mean((b-a)**2)) /np.mean (a) 


这 将 产生 图 6-32 的 输出 。 
现在 将 其 与 平均 值 进 行 比 较 。 
(b-a) .mean () 


这 将 产生 图 6-33 的 输出 。 


0.20000000000000001 0.0 
图 6-32 图 6-33 


显然 前 者 是 更 有 意义 的 统计 “。 现 在 为 我 们 的 模型 运行 这 个 统计 。 


np.sqrt(np.mean((y pred-y actual)**2))/np.mean(y _ actual) 














( 译 者 注 : 作者 的 意思 是 ， 他 所 建议 的 统计 方式 更 能 体现 数据 的 波动 。 
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上 述 代码 生成 图 6-34 的 输出 。 
突 扰 


0.6934545982263226 
突然 发 现 ， 我 们 的 模型 没有 那么 优秀 了“。 让 我 们 为 


ds a 图 6-34 
模型 添加 另 一 个 特征 。 来 看 看 添加 单词 的 计数 是 个 会 有 助 
于 模型 的 提升 。 我 们 将 使 用 计数 的 向 量 转化 器 来 做 到 这 一 点 。 和 之 前 对 于 网 站 名 称 的 处 理 
很 像 ， 我 们 将 单个 词 和 7mz 元 语法 转换 成 特征 。 
from sklearn.feature extraction.text import CountVectorizer 
vect = CountVectorizer (ngram range= (1,3)) 
xX titles all = vect.fit transform(all datal'title']) 
xX titles train = X titles alll[ltrain index] 
xX titles test = XxX titles alll[ltest index] 
X test = pd.merge(X test, pd.DataFrame (X titles test.toarray () ， 
index=X test.index), left index=True, right index=True) 
X train = pd.merge(X train, pd.DataFrame (X titles train.toarray (), 
index=X train.index), left index=True, right index=True) 


在 这 些 代 码 行 中 , 我 们 将 新 的 n 元 语法 特征 加 入 到 现 有 的 特征 中 。 现 在 重新 训练 模型 ， 
看 看 是 个 有 任何 改进 。 

clf.fit(X train, y train) 

y_Ppred = clf.predict(X test) 

deltas = pd.DataFrame (list (zipl(y pred, y actual, (y pred - 


y_actual)/(y actual))), columns=['predicted', ‘actual', 'delta']) 
deltas 


上 述 代 码 生 成 图 6-35 的 输出 。 


Te 
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图 6-35 

































(D 译 者 注 : 在 这 里 ， 和 平均 值 相 比 ， 较 大 的 波动 意味 着 较 大 的 预测 误 天 。 
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再 次 使 用 以 下 方式 检查 错误 的 情况 。 

np.sqrt(np.mean((y pred-y actual)**2))/np.mean(y actual) 

这 将 产生 图 6-36 的 输出 。 

看 来 模型 有 了 一 定 的 改进 。 让 我 们 为 模型 继续 添加 一 个 特征 。 添 加 标题 的 字数 如 下 。 


all data = all data.assign(title wc = all datal'title'] .map (lambda x: 
len(x.split(' ')))) 

X train = pd.merge(X train, all datal[l['title wc']], left index=True, 
right index=True) 

X test = pd.merge(X test, all datal['title wc']], left index=True, 
right index=True) 

clf.fit(X train, y train) 

y_Ppred = clf.predict(X test) 

np.sqrt(np.mean((y pred-y actual)**2))/np.mean(y actual) 


上 述 代 码 生 成 图 6-37 的 输出 。 


0.64352892438189691|0.64134526362902999 | 
图 6-36 图 6-37 


看 来 ， 每 项 特征 都 适度 改进 了 我 们 的 模型 。 当 然 还 有 更 多 可 以 添加 到 模型 中 的 特征 。 
例如 ， 我 们 可 以 增加 星期 几 发 布 和 发 布 的 具体 时 间 ， 还 可 以 通过 在 标题 上 运行 正则 表达 式 
来 确定 某 篇 文章 是 否 采 用 了 清单 体 ?， 或 者 可 以 检查 每 篇 文章 的 情绪 。 对 于 病毒 式 传播 的 
建 模 而 言 ， 这 些 只 是 探索 潜在 重要 的 特征 的 开始 。 为 了 继续 减少 模型 中 的 错误 ， 我 们 肯定 
还 需要 不 断 进步 

我 还 应 该 提 到 ， 目 前 针对 我 们 的 模型 只 做 了 最 粗略 的 测试 。 每 种 测量 方法 都 应 该 运行 
多 次 以 获得 更 准确 的 错误 率 表 示 。 对 于 之 前 两 个 模型 ， 可 能 并 没 不 存在 统计 上 可 辨别 的 差 
异 ， 因 为 我 们 只 执行 了 一 次 测试 。 
































6.5 小 结 


在 本 章 中 ， 我 们 研究 了 病毒 式 传 播 的 共同 特征 ， 以 及 如 何 使 用 随机 森林 回归 构建 模型 ， 并 
预测 传播 性 。 我 们 还 学 习 了 怎样 结合 多 种 类型 的 特征 ， 以 及 如 何 将 数据 分 成 训练 集 和 测试 集 。 

布 望 你 能 利用 这 里 学 到 的 知识 ， 建 立 下 一 个 病毒 式 传 播 的 王国 。 如 末 这 还 不 行 ， 也 许 
下 一 章 关 于 股市 机 会 的 党 控 将 会 是 非常 有 用 的 。 








(D 译 者 注 : 清单 体 〈Listicle) 是 英文 中 的 新 间 ， 它 是 现代 信息 传播 最 吸引 眼球 的 方式 之 一 。 
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第 7 章 
使 用 机 希 字 习 预 测 股票 市 场 





在 生物 学 中 ， 有 一 个 相当 知名 的 现象 ， 称 为 红色 星 后 的 竞赛 。 这 个 想法 是 每 个 有 机 体 
都 加 入 一 种 不 能 获得 巨大 优势 的 苋 争 , 而 只 是 能 够 跟 上 不 断 变 化 的 、 元 满 对 立 生 物 的 环境 。 

这 个 词 来 自 Lewis Carol 的 “Through the Looking Glass ”一 书 :“ 现 在 ， 这 里 ， 你 要 理 
解 ， 拼 命 的 奔跑 ， 你 才 可 以 你 持 在 原 地 。” 


这 种 现象 的 一 个 例子 是 耐 抗 生 素 的 超级 细 黄 之 兴起 ， 例 如 MRSA。 随 看 我 们 研 友 出 越 
来 越 强 大 的 抗生素 ， 这 些 细 霄 也 在 进化 越 来 越 好 的 防御 系统 ， 以 打败 我 们 的 药物 。 


这 似乎 和 股票 市 场 没 什么 关系 ， 但 是 同样 的 现象 每 天 都 在 金融 市 场 出 现 。 驳 像 有 生命 
的 有 机 体 那样 ， 市 场 每 天 都 在 演化 ， 今 天 还 能 成 立 的 事情 ， 明 天 可 能 就 完全 行 不 通 了 。 

例如 ,一 篇 偶尔 友 布 的 报道 会 拓 醒 金融 界 存 在 一 种 现象 ， 访 现象 是 基于 茶 些 有 利 可 图 
的 开关 情况 。 通 各 这 样 现 象 是 一 些 外 部 施加 的 、 现 实 世 界 约束 的 下 游 效 应 。 例 如 年 终 税收 
导致 的 亏损 卖 出 。 由 于 税法 的 性 质 ， 对 于 交易 者 而 言 ， 在 年 撒 卖 出 他 们 的 亏损 股票 是 很 合 
理 的 。 接 近年 撒 的 时 候 ， 这 将 对 亏损 的 股票 产生 价格 下 行 的 压力 ， 使 得 该 股票 低 于 其 合理 
的 市 场 价值 。 这 也 意味 大 1 月 份 来 临 的 时 候 ， 下 行 的 压力 没有 了 ， 这 种 股票 面临 的 是 网 上 
的 压力 ， 原 因 是 新 的 资金 再 次 投入 这 些 被 低 佑 的 人 资产。 但是， 一 旦 这 种 现象 家 广播 ， 对 于 
交易 者 而 言 ， 他 们 只 有 做 到 先行 一 步 才 有 意义 ， 也 融 是 在 12 月 铺 买 入 股票 ， 并 在 1 月 卖 给 
其 他 交易 者 。 这 些 试 图 获得 早期 优势 的 新 交易 者 ， 现 在 进入 了 市 场 并 稀释 了 伪 利 的 效 来 。 

他 们 正在 缓解 年 底 的 抛售 压力 ， 并 减少 了 1 月 份 的 购买 动力 。 这 种 效应 本 质 上 是 随 着 
利润 一 起 套利 。 曾 经 奏效 的 操作 不 再 有 灵验， 交易 者 开始 放 径 这 个 成 略 ， 并 继续 寻找 下 一 个 
新 的 事物 。 为 了 避免 “不 进 则 退 ”， 交 易 者 必须 快速 地 适应 。 


在 本 半 中 ， 我 们 将 花 一 些 时 间 讨 论 如 何 构 建 和 测试 交易 策略 。 不 过 ， 我 们 将 花 更 多 的 时 
间 ， 研 究 如 何 “ 不 ”这 样 做 。 在 设计 自己 的 系统 时 ， 有 无 数 的 陷阱 需要 规避 ， 这 几乎 是 一 个 
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不 可 能 完成 的 任务 。 人 然而， 这 个 过 程 可 以 有 很 多 的 乐趣 一 一 有 时 ， 它 甚至 可 以 创造 利润 。 
我 们 将 在 本 章 讨论 以 下 主题 。 
e 市 场 分 析 的 类 型 。 
e 关 于 股票 市 场 ， 研 究 告诉 我 们 些 什么 ? 
e 如 何 开发 一 个 交易 系统 。 
e 构 建 和 评估 你 的 机 器 学 习 模 型 。 
请 不 要 使 用 本 章 中 的 信息 做 傻 事 。 不 要 拿 你 无 法 承受 
的 金额 去 冒险 。 如 果 你 决定 使 用 任何 这 里 学 习 的 内 容 
人 进行 交易 ， 你 都 要 为 自己 的 行为 负责 。 这 里 所 学 的 知 
识 都 不 应 该 被 视 为 任何 类 型 的 投资 建议 ， 我 不 会 对 你 
的 行为 承担 任何 责任 。 





7.1 市 场 分 析 的 类 型 


刚 开 始 ， 让 我 们 先 讨 论 一 些 涉及 金融 市 场 的 天 键 术 语 和 分 析 方 法 。 虽 然 有 无 数 的 金融 
工具 ， 如 股票 、 债 券 、 交 易 型 开放 式 指数 基金 (ETF)、 汇 市 、 互 惠 挥 换 每 ， 这 里 我 们 将 讨 
论 的 内 容 限于 股票 和 股票 市 场 。 股 票 只 是 上 市 公司 所 有 权 的 一 小 部 分 。 当 公司 的 未 来 前 景 
被 看 好 时 ， 人 们 就 预期 股票 的 价格 会 增长 ， 而 前 景 不 被 看 好 时 ， 了 预 期 价格 融会 下 跌 。 

投资 者 一 般 属 于 下 列 这 两 个 阵营 之 一 。 第 一 阵营 相信 基本 和 面 的 分 析 。 基 本 面 分 析 师 通 
公司 的 财务 状况 来 寻找 信息 ， 碍 明 市 场 对 公司 的 股票 是 否 低 佑 。 这 些 投资 者 关注 各 种 因 
， 例 如 和 营 收 、 熏 利和 现金 流 。 他 们 也 观察 与 这 些 什 有关 的 许多 比率 。 很 多 时 候 ， 这 涉及 
看 两 家 公司 财务 对 比 的 情况 。 

第 二 阵 各 的 投资 者 是 技术 分 析 师 。 近 术 分 析 师 认为 股票 的 股价 已 经 反映 了 所 有 可 用 的 
公共 信息 ， 而 研究 基本 面 很 大 程度 上 是 浪费 时 间 。 他 们 相信 ， 通 过 查阅 历史 价格 一 一 股票 
图 表 一 一 一 个 人 可 以 看 到 价格 可 能 上 涨 、 下 跌 或 停滞 不 前 的 区 间 。 一 般 来 次 ， 他 们 筑 得 这 
些 图 表 为 揭示 投资 者 的 心理 提供 了 线索 。 

这 两 个 群体 的 共同 点 是 一 个 潜在 的 信念 ， 它 认为 正确 的 分 析 可 以 让 我 们 获得 利润 。 不 
过 ， 这 是 真 的 吗 ? 
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7. 2 关于 股票 市 场 ， 研 究 告诉 我 们 些 什么 











在 过 去 50 年 中 ， 股 票 市 场 最 有 影响 力 的 理论 也 许 是 有 效 市 场 假设 。 这 个 理论 是 由 
Eugene Fama 发 明 的 ， 它 认为 市 场 是 理性 的 ， 所 有 可 用 的 信息 都 充分 反映 在 股票 价格 上 。 
因此 ， 某 位 投资 者 不 可 能 在 风险 调整 的 基础 上 始终 “打败 市 场 ” 有 效 市 场 假说 通常 被 认为 
其 有 三 种 形式 : 界 式 、 半 强 式 和 强 式 。 


在 弱 式 下 ， 市 场 是 有 效 的 意义 在 于 ， 投 资 者 无 法 使 用 过 去 的 价格 信息 来 预测 未 来 的 价 
格 。 股 票 反 映 出 的 信息 是 相对 较 快 的 。 此 外 ， 虽 然 技术 分 析 是 无 效 的 ， 在 茶 些 情况 下 基本 
面 分析 可 能 是 有 效 的 。 

在 半 强 式 中 ,价格 以 无 偏 的 方式 ， 立 即 反 映 出 所 有 相关 的 最 新 公开 信息 。 这 种 情况 
下 ， 技术 分 析 和 基本 和 面 分 析 都 无 法 到 效 。 最 后 ， 在 强 式 中 ， 股票 价格 反映 所 有 公开 和 私 


mz (= 
密 信 忆 。 


基于 这 些 理论 ， 想 利用 市 场 的 模式 来 赚钱 ， 布 望 并 不 大 。 辛 运 的 是 ， 昌 然 市 场 整 体 上 
是 以 有 效 的 形态 运作 ， 但 是 人 们 还 是 友 现 了 一 些 不 太 局 效 的 地 方 。 往 往 大 多 数 现象 部 是 短 
暂 的 ， 不 过 有 些 确 是 一 直 存 在 。 最 普遍 的 一 一 即使 是 根据 Fama 的 理论 一 一 是 动量 交易 策略 
的 优秀 表现 。 


那么 ， 什 么 是 动量 交易 集 略 呢 ? 其 主 则 有 很 多 变 体 ， 但 其 基本 思想 是 按照 股票 前 一 段 
时 间 的 回报 ， 将 它们 从 融 到 低 进 行 排 名 。 买 入 表现 最 佳 的 股票 并 持 有 一 段 时 间 ， 然 后 在 一 
定时 期 之 后 重复 该 过 程 。 一 个 典型 的 长 期 动量 交易 束 略 可 能 是 购买 标准 普尔 500 指数 中 ， 
过 去 一 年 的 表现 排名 前 25 的 股票 ， 持 有 它们 一 年 ， 然 后 重复 这 个 过 程 。 

这 听 起 来 像 一 个 极其 简单 的 策略 一 一 确实 如 此 。 但 是 ， 它 已 经 在 不 断 地 返回 和 和 人们 预 
期 不 一 致 的 结束 。 为 什么 呢 ? 你 可 以 想象 ， 很 多 研究 都 有 观测 这 种 效应 ， 其 假设 是 关于 人 
们 如 何 处 理 新 的 信息 ， 人 存在 菏 些 内 在 的 、 系 统 性 的 侦 兰 。 研 究 表 明 他 们 短期 内 对 新 闻 反 应 
不 足 ， 然 而 长 期 来 看 对 新 闻 义 反应 过 度 了 。 

随 独 越 来 越 多 的 交易 者 学 习 这 个 理论 并 涌 入 市 场 ， 这 种 效应 会 实现 获 利 吗 ? 近年 来 有 
一 些 证 据 显 露出 来 ， 但 仍 不 明明 。 无 论 如 何 ， 其 效 末 是 真实 的 ， 并 且 持 续 时 间 远 远 超 过 有 
效 市 场 假 设 当前 所 能 解释 的 那 部 分 ， 所 以 还 有 和 希望。 有 了 这 种 微小 的 希望 ， 让 我 们 继续 下 
一 步 ， 看 看 如 何 友 现 属于 目 己 的 异 单 。 
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7. 3 如 何 开发 一 个 交易 策略 


我 们 冯 先 专注 于 技术 方面 ， 以 此 开始 策略 的 研发 。 来 看 看 在 过 去 的 几 年 中 ， 标 准 普 尔 
500 指数 的 表现 。 我 们 将 使 用 pandas 的 功能 来 导入 数据 。 这 让 我 们 可 以 访问 多 个 股票 数据 
来 源 ， 包 括 Yahoo! 和 Google。 





首先 ， 需 要 安装 datareader 包 。 这 可 以 使 用 命令 行 通过 pip 安装 : pip install 


pandas datareaders 


然后 ， 我 们 将 继续 设置 包 的 导入 ， 如 下 所 示 。 


import pandas as pd 
from pandas datareader import data, wb 
import matplotlib.pyplot as plt 


matplotlib inline 

pd.set option('display.max colwidth', 200) 

现在 ， 我 们 将 获取 SPY ETF 的 数据 。 它 代表 了 标准 普尔 500 的 股票 。 我 们 将 拉 取 从 2010 
年 初 到 2016 年 3 月 初 的 数据 。 

import pandas datareader as pdr 


start date = Pd.to datetime('2010-01-01') 
stop date = Pd.to datetime('2016-03-01') 


spy = pdr.data.get data yahoo('SPY', start date, stop date) 


上 述 代 人 码 生 成 图 7-1 的 输出 。 


一 as 最 估价 | 收 居 价 | 成 交 量 | 调整 收 和 从 
2010-01-04 | 112.370003 | 113.389999 |111.510002 |113.330002 | 118944600 | 100.323436 
2010-01-05 | 113.260002 | 113.680000 |112.849998 | 113.629997 |111579900 |100.589001 
2010-01-06 | 113.519997 | 113.989998 | 113.430000 |113.709999 | 116074400 |100.659822 
2010-01-07 | 113.500000 |114.330002 |113.180000 |114.190002 |131091100 |101.084736 


aoro or rts ooon rrs a0007 [a ao0008 [rr 7o0005 roca75700 or se7e3] 
aoro ova [rra oroon [ra ano0nn [oaa000 [rra een00n resooos00 0061essd] 
nro or rra oncom [ra ouo0na [as70003 [risz000s Irorezzo00 on a5387] 


图 7-1 
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现在 可 以 绘制 这 些 数据 了 。 我 们 只 选择 收盘 价 ， 如 下 所 示 。 
spy_c = spy['Close'] 


fig, ax = plt.subplots (figsize=(15,10)) 
spy_c.plot (color="'k') 
plt.title("SPY", fontsize=20) 


上 述 代 码 生 成 图 7-2 的 输出 。 





























在 图 7-2 中 ， 我 们 看 到 了 选 定 时 期 内 ， 标 准 普尔 500 指数 日 收盘 价 的 价格 图 。 让 我 们 
进行 一 点 分 机 ， 看 看 如 果 投 资 这 个 ETF， 访 期 间 内 的 回报 将 是 多 少 。 


我 们 乞 拉 取 首 个 开盘 日 的 数据 。 


first open = spy['Open'] .iloc[0] 











first open 
上 述 代 码 生 成 图 7-3 的 输出 。 
接 下 来 ， 让 我 们 得 到 该 期 间 最 后 一 天 的 收盘 价 。 


last close = spyl['Close'] .iloc[-1] 
last close 


这 将 导致 图 7-4 的 输出 。 


112.370003 1198.11000100000001 


图 7-3 图 7-4 
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最 后 ， 让 我 们 看 看 整个 时 期 的 变化 。 

last close - first open 

上 述 代 码 生 成 图 7-5 的 输出 。 

因此 ， RC A A A100 Os 化 费 我 们 大 约 11,237 美元 ， 
该 时 期 结束 时 ,相同 的 100 股 股份 价值 约 为 19,811 美元 。 这 笔 交 易 将 给 我 们 带 来 超过 76% 
的 收益 。 相 当 不 钳 了 。 

现在 让 我 们 看 看 同一 时 期 内 ， 盘 中 交易 的 收益 。 这 个 操作 假说 我 们 在 每 日 开盘 时 屎 入 
股票 ， 并 在 当天 收盘 时 卖 出 股票 。 

spy[l'Daily Change'] = Pd.Series (SPY['ClLlose'] - spyl'Open']) 

这 行 代码 将 提供 每 天 从 开盘 到 收盘 的 变化 。 让 我 们 来 看 看 。 

spy['Daily Change ' ] 


上 述 代码 生成 图 7-6 的 输出 。 




















2010-01-04 .959999 
369995 
190002 
690002 
:680001 
349999 
2010-01-12 309997 
2010-01-13 670006 


85.739998000000014 


2010-01-14 
2010-01-15 
2010- 01-19 


2010-01-25 
2010-01-26 
2010-01-27 
2010-01-28 
2010-01-29 
2010-02-01 
2010-02-02 
2010-02-03 


440002 
:090004 
439995 
390000 
2 .220001 
.989998 
:440002 
029998 
.660004 
620002 
.650002 
.909996 
.119995 
049995 





图 7-5 图 7-6 
现在 让 我 们 将 这 段 时 期 的 变化 加 和 。 


spy['Daily Change'] .sum() 41.460173000000196 


上 述 代 人 码 生 成 图 7-7 的 输出 。 图 7-7 


所 以 , 你 可 以 看 到 ， 我们 的 收 荔 已 经 从 超过 85 点 的 增长 ， 下 降 到 刚刚 过 41 点 的 增长 。 
哎哟 ! 一半 以 上 的 市 场 收 荔 来 自 于 这 段 时 期 内 整 日 整 夜 地 持 有 股票 。 
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隔夜 交易 的 回报 率 优 于 盘 中 交易 的 回报 率 ， 但 是 波动 性 又 如 何 呢 ? 人 们 总 是 在 风险 
调整 的 基础 上 判断 回报 的 ， 所 以 让 我 们 来 看 看 基于 标准 兰 ， 隅 夜 交 易 和 盘 中 交易 相 比 较 各 
目 表 现 如 何 。 

我 们 可 以 使 用 NumPy 来 计算 盘 中 交易 的 标准 兰 ， 共 体 如 下 。 

np.std(spy['Daily Change ' ] ) 

上 述 代码 生成 图 7-8 的 输出 。 

现在 ， 让 我 们 计算 隔夜 交易 的 标准 关 。 

spy['Overnight Change'] = pd.Series(spy['Open'] - spyl'Close'] .shift(1)) 

np.std(spy['Overnight Change ' ] ) 


上 述 代码 生成 图 7-9 的 输出 。 

















1 .1449966111357177 10.95281601518051173 


因此 ， 隅 夜 交易 与 盘 中 交易 相 比 具 有 较 低 的 波动 性 。 然 而 ， 并 不 是 所 有 的 流动 性 都 是 


图 7-8 图 7-9 











相等 的 。 让 我 们 比较 两 种 策略 ， 在 下 跌 交 易 日 的 平均 变化 。 
自 完 ， 让 我 们 来 看 看 下 跌 交 易 日 的 每 日 变化 。 
spy[lspy['Daily Change']<0] ['Daily Change'] .mean() 
上 述 代码 生成 图 7-10 的 输出 。 
现在 ， 我 们 来 看 看 下 跌 交 易 日 的 隔夜 变化 。 
spy[spy['Overnight Change']<0] ['Overnight Change'] .mean () 


上 述 代码 生成 图 7-11 的 输出 。 


-0.90606707692307742|-0.66354681502086243 | 
图 7-10 图 7-11 


再 次 ， 我 们 看 到 隅 夜 交 易 人 策略 的 平均 下 降幅 度 小 于 一 中 交易 脓 略 的 。 

到 目前 为 止 ， 我 们 部 是 观测 的 数据 点 ， 现 来 看 看 回报 。 这 将 有 助 于 在 更 现实 的 背景 下 
讨论 我 们 的 收益 和 损失 。 继续 前 面 的 三 个 策略 “, 我 们 将 为 每 个 场景 构建 一 个 pandas 数 据 序 
列 : 每 日 回报 〈 昨 日 收盘 到 今日 收盘 的 价格 变化 入 盘 中 回报 《当日 开盘 到 收盘 的 价格 变化 ) 
和 陋 夜 回报 《昨日 收盘 到 今日 开盘 的 价格 变化 )， 有 基体 如 下 。 


























(D 译 者 注 : 这 里 存在 笔 误 ， 之 前 只 提 到 了 两 个 策略 。 
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daily rtn = ((spy[l'Close'] - 

spy['Close'] .shift(1))/spy['Close'] .shift(1))*100 

id rtn = ((spy['Close'] - spy['Open'])/spy['Open'])*100 

on rtn= ((spy['Open'] - spy['Close'] .shift(1))/spy['Close'] .shift(1))*100 


我 们 所 做 的 是 使 用 pandas. shift () 方 法 以 当天 的 数据 序列 减 去 前 面 一 天 的 数据 序 
列 。 例 如 ， 对 于 前 面 代码 中 的 第 一 个 Series， 每 天 我 们 从 当日 收盘 价 中 减 去 前 一 日 的 收 
税 价 。 由 于 是 计算 差价 ， 所 以 新 的 Series 所 包含 的 数据 点 会 少 一 个 。 如 果 打 印 出 新 的 














Series， 你 可 以 看 到 以 下 内 容 。 
daily rtn 
上 述 代 码 生 成 图 7-12 的 输出 。 


现在 来 看 看 所 有 三 个 策略 的 统计 信息 。 我 们 将 创建 一 个 
浮 数 ， 它 将 接收 每 个 回报 的 数据 序列 ， 然 后 打印 出 摘要 性 的 
结果 。 我 们 要 得 到 每 一 次 获 利 、 亏 损 和 和 鳃 亏 平衡 交易 的 统计 
数据 ， 以 及 名 为 夏普 比率 (Sharpe ratio) 的 东西 。 我 之 前 说 
过 ， 回 报 是 根据 风险 调整 后 的 基础 来 判断 的 。 这 正 是 夏普 比 
率 将 要 提供 给 我 们 的 。 它 是 一 种 考虑 回报 的 波动 性 ， 来 比较 
回报 的 方法 。 这 里 ， 我 们 使 用 调整 过 的 夏普 比率 来 计算 年 化 
比率 。 


def get stats(s, n=252): 











s = s.dropna() 

wins = len(s[s>0]) 
losses = len(s[s<0]) 
evens = len(s[s==0]) 


mean w = round(s[s>0] .mean(), 3) 
mean 1 = round(s[s<0] .mean(), 3) 
win r = round(wins/losses, 3) 
mean trd = ound(s .mean () ，3) 

sd = round(np.std(s), 3) 

max 1 = round(s.min(), 3) 

max Ww = ound(s .max()，3) 


2010-01-08 
2010-01-11 
2010-01-12 
2010-01-13 
2010-01-14 
2010-01-15 
2010-01-19 
2010-01-20 
2010-01-21 
2010-01-22 
2010-01-25 
2010-01-26 
2010-01-27 


sharpe r = round((s.mean()/np.std(s))*np.sqrt(n), 4) 


cnt = len(s) 

print('Trades:', cnt,\ 
'\nWins:', wins,\ 
'\nLosses:', losses,\ 
'\nBreakeven:', evens,\ 
'\nWin/Loss Ratio', win r,\ 
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“264709 
.070406 
.422129 
“et 
"139655 
.932624 
.844623 
"270456 
。122423 
.249559 
.016860 
:922910 
.229184 
.512772 
.419057 
“475715 
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'\nMean Win:', mean w,\ 
'\nMean Loss:', mean 1,\ 
'\nMean', mean trd,\ 
'NnStd Dev:', sd,\ 
'\nMax Loss:', max 1,\ 
'\nMax Win:', max w,\ 
'\nSharpe Ratio:', sharpe r) 
现在 让 我 们 在 每 个 策略 上 运行 相关 的 代码 并 得 看 统计 信息 。 这 里 将 从 买 入 并 持 有 的 寅 
略 《每 日 回报 〉 开始 ， 然 后 再 切换 到 另外 两 个 ， 其 体 如 下 。 
get stats (daily rtn) 
上 述 代 码 生成 图 7-13 的 输出 。 
get stats (id rtn) 


上 述 代码 生成 图 7-14 的 输出 。 








交易 次 数 : 1550 
交易 次 数 : 1549 鳃 利 次 数 ; 851 
恒利 次 数 : 844 亏损 次 数 ; 689 
亏损 次 数 ; 699 将 亏 平 衡 次 数 : 10 
僵 亏 平衡 次 数 : 6 硬 利 /亏损 比例 1 .235 
僵 利 /亏损 比例 1。.207 苹 利 的 平均 值 ; 0.517 


僵 利 的 平均 值 : 0.691 亏损 的 平均 值 ; -0.59 
亏损 的 平均 值 : -0.743 平均 收益 0 .021 
下 标准 差 ; 0 .758 
标准 差 : 1.009 Eee 
最 大 亏损 : -6.512 最 大 亏损 : 。 
最 大 便利 4 .65 最 大 僵 利 : 3.683 
夏普 比率 : 0.6477 夏普 比率 : 


0.4472 





图 7-13 图 7-14 

get stats (on rtn) 

上 述 代码 生成 图 7-15 的 输出 。 

如 你 所 见 ， 在 三 个 集 略 中 ， 买 入 并 持 有 的 策略 上 其 有 最 蜗 的 平均 回报 京 以 及 最 局 的 回报 
率 标 准 着 。 它 也 包含 了 最 大 的 单 日 下 跌 《〈 亏 损 )。 还 有 一 点 仁 得 注意 的 是 ， 即 使 隔夜 策略 和 
盘 中 策略 有 看 几乎 相同 的 平均 回报 ， 其 波动 性 明显 较 小 。 因 此 ， 隔 夜 策略 的 收 普 比率 要 高 
于 盘 中 全 略 的 。 

到 目前 阶段 ， 我 们 拥有 一 个 相当 不 错 的 基准 线 了 ， 可 以 用 它 来 比较 我 们 后 续 的 策略 。 
现在 ， 我 要 告诉 你 一 个 新 的 末 上 略 ， 它 将 绝对 性 地 击败 目前 所 有 的 三 个 束 略 。 

让 我 们 来 看 看 这 个 新 的 神秘 集 略 的 统计 数据 ， 如 图 7-16 所 示 。 
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交易 次 数 : 1549 
熏 利 次 数 : 821 交易 次 数 : 1549 
亏损 次 数 : 720 三 利 次数。 454 ， 
一 亏 平 衡 次 数 : 8 亏损 次 数 : 34 
盈利 /亏损 比例 1 .14 恒 亏 平衡 次 数 : 755 
鼻 利 的 平均 值 : 0 .421 僵 利 /亏损 比例 1.335 
便利 的 平均 值 : 0.684 


亏损 的 平均 值 ; -0.437 ee 
平均 收益 0.02 0 
标准 差 : 0 .63 标准 差 : 0.663 
最 大 亏损 : -5.227 最 大 亏损 : -3.46 
最 大 盈利 : 4.09 最 大 便利 : 5.93 
夏普 比率 : 0.5071 夏普 比率 : 1.6675 





图 7-15 图 7-16 


有 了 这 个 策略 , 我 的 夏普 比率 几乎 是 买 入 并 持 有 开 略 的 三 倍 ， 并 明显 地 降低 了 波动 性 ， 
增加 了 最 大 收益 ， 并 将 最 大 损失 降低 近 一 半 。 

我 是 如 何 设 计 这 种 战胜 市 场 的 策略 的 ?请 和 等 一 下 …… 在 测试 的 时 间 段 内 ， 对 于 隔夜 
策略 我 生成 了 1,000 次 随机 信号 《〈 买 入 或 者 不 买 入 )， 然 后 选择 表现 最 好 的 一 个 。 这 给 了 我 
最 好 的 1000 次 随机 信和 与 组 合 。 

这 显然 不 是 战胜 市 场 的 方式 。 那 么 ， 为 什么 我 这 样 做 呢 ? 我 这 样 做 是 为 了 证 明 ， 如 果 
你 测试 足够 多 的 策略 ， 事 实 是 你 偶然 会 遇 到 一 些 似乎 是 很 棒 的 策略 。 这 就 是 所 谓 的 数据 控 
掘 请 误 ， 是 交易 策略 开发 中 的 真正 风险 。 这 就 是 为 什么 某 个 策略 和 现实 世界 的 行为 相对 应 
是 如 此 的 重要 一 一 而 行为 ， 由 于 一 些 现实 的 约束 而 产生 了 系统 性 的 偏差 。 如 果 你 想 在 交易 
中 占有 优势 ， 不 要 和 市 场 进行 交易 ， 而 是 与 市 场 的 参与 者 进行 交易 。 


我 们 要 占 优 势 ， 束 要 深入 地 理解 人 们 对 某 些 情况 如 何 做 出 反应 。 
7.3.1 延长 我 们 的 分 析 周 期 


现在 延伸 我 们 的 分 析 。 首 先 ， 从 标准 普尔 500 指数 拉 取 目 2000 年 开始 的 数据 。 


start date = Pd.to datetime('2000-01-01') 
stop date = Pd.to datetime('2016-03-01') 
sp = pdr.data.get data yahoo('SPY', start date, stop date) 























让 我 们 看 看 这 个 图 表 。 

fig, ax = plt.subplots (figsize=(15,10)) 
spl[l'Close'] .plot(color='k') 
plt.title("SPY", fontsize=20) 


上 述 代 人 码 生 成 图 7-17 的 输出 。 
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图 7-17 


在 图 7-17 中 ， 我 们 看 到 了 从 2000 年 开始 到 2016 年 3 月 1 日 期 间 ，SPY 的 价格 变化 。 


当时 一 定 存 在 很 多 波动 ， 市 场 同时 经 历 了 相对 的 高 点 和 低 点 。 


让 我 们 在 这 个 新 扩展 的 时 间 段 内 ， 获 取 三 个 基本 策略 的 基准 线 。 
上 自 完 ， 让 我 们 为 每 个 集 略 设置 变量 ， 如 下 所 示 。 


long day rtn = ((sp[l'Close'] - 
sp['Close'] .shift(1))/spl[l'Close'] .shift(1))*100 





long id rtn = ((sp['Close'] - sp['Open'])/spl'Open'])*100 
long on rtn = ((sp['Open'] - 
sp['Close'] .shift(1))/spl['Close'] .shift(1))*100 


现在 ， 让 我 们 看 看 每 个 策略 的 总 体 数据 。 

1. 首先 是 每 日 回报 。 

(sp['Close'] - sP['CLose'].shitt(1L)) .sum() 
上 述 代码 生成 图 7-18 的 输出 。 

2. 然后 是 盘 中 回报 。 


(sp['Close'] - SP['OPen']) .sunm() 
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上 述 代码 生成 图 7-19 的 输出 。 


图 7-18 图 7-19 
3. 最 后 是 隅 人 夜 回报 。 
(sp['Open'] - sp['close'].shift(1)) .sum() 
上 述 代码 生成 图 7-20 的 输出 。 
现在 ， 让 我 们 看 看 每 种 策略 的 统计 数据 。 
4. 自 完 ， 我 们 得 到 每 日 回报 的 统计 量 。 
get stats (long day rtn) 


上 述 代 码 生 成 图 7-21 的 输出 。 











交易 次 数 : 4064 
盈利 次 数 : 2168 
亏损 次 数 : 1881 
一 亏 平衡 次 数 : 15 
盈利 /亏损 比例 1.153 


恒利 的 平均 值 : 0.819 
0 -0.91 
平均 收益 
标准 关 : 2375 
最 大 亏损 : -9.845 
最 天 和 恒利: 14.52 
夏普 比率 : 0.1958 





86.77226799999964 
图 7-20 图 7-21 
5$， 接 下 来 ， 我 们 获取 一 中 回报 的 统计 量 。 
get stats (long id rtn) 
上 述 代码 生成 图 7-22 的 输出 。 
6. 最 后 ， 我 们 得 到 隅 夜 回报 的 统计 量 。 
get stats (long on rtn) 
上 述 代码 生成 图 7-23 的 输出 。 


我 们 可 以 看 到 ， 在 更 长 的 考察 时 间 内 ， 三 者 之 间 的 差异 更 加 显著 。 如 果 我 们 在 过 去 16 
年 间 ， 只 在 白天 持 有 标准 普尔 ETF， 那 么 我 们 会 亏 钱 。 如 果 我 们 只 在 夜间 持 有 ETF， 回 报 束 
会 得 到 超过 50% 的 改善 1! “当然 ， 这 里 假设 没有 交易 成 本 、 没 有 税收 ， 每 次 买 入 卖 出 都 是 
































Q 译 者 注 : 此 处 作者 的 意思 是 ， 和 购买 并 持 有 相 比 ， 如 果 每 天 晚间 买 入 并 且 在 每 天 早上 卖 出 ， 你 将 获得 额外 的 
50% 人 私利 。 
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完美 衔接 ， 但 无 论 如 何 ， 这 是 一 个 了 不 起 的 发 现 。 


交易 次 数 : 4065 
便利 次 数 : 2128 交易 次 数 : 4064 
亏损 次 数 : 1908 盈利 次 数 : 2152 
僵 亏 平衡 次 数 : 29 亏损 次 数 : 1878 
便利 /亏损 比例 1 .115 便 亏 平衡 次 数 : 34 
恒利 的 平均 值 : 0 .686 恒利 /亏损 比例 1.146 


云 捐 的 平均 值 。 -0.766 熏 利 的 平均 值 : 0.436 
亏损 的 平均 值 : -0.466 


平均 收益 0.016 
标准 差 ; 1 .052 标准 差 : 0.696 


最 大 亏损 : -8.991 最 大 亏损 : -8.322 
最 大 便利 : 8.435 最 大 硬 利 : 6.068 
夏普 比率 : -0.0063 夏普 比率 : 0.3541 





图 7-22 图 7-23 


7.3.2 使 用 支持 向 量 回归 ， 构 建 我 们 的 模型 


现在 我 们 有 一 个 基线 用 于 比较 ， 接 下 来 构建 第 一 个 回归 模型 。 我 们 将 从 一 个 非常 基本 
的 模型 和 开始， 上 5 0 
量 回 归来 构建 此 模型 。 有 了 了 这些， 下面 开始 建 并 模型 。 
是 为 包含 每 一 天 价格 的 历史 记录 设置 DataFrame 对 象 。 在 这 个 模型 中 ， 我 们 
ni pein 


for i In range(l1l, 21, 1): 
sp.loc[:,'Close Minus ' + str(i)] = spl'Close'] .shift(i) 











sp20 = sp[[x for x in sp.columns If 'Close Minus' jin x or x == 
'Close']].iloc[20:,] 
sp20 


上 述 代 人 码 生 成 图 7-24 的 输出 。 


国正- 前 1 日 的 | 前 2 日 的 前 3 日 的 前 4 日 的 | 前 5 日 的 | 前 6 日 的 | 前 7 日 的 | 前 8 日 的 | 前 9 日 的 四 IC 
日 期 | 


ee 140.937500 | 139.562500 |135.875000 |140.250000 |140.812500 |141.937500 | 140.343704 |144.437500 | 144.750000 |147.000000 rl- 146.968704 
ee 141.062500 |140.937500 |139.562500 |135.875000 |140.250000 | 140.812500 | 141.937500 |140.343704 |144.437500 | 144.750000 国 145.812500 


/ 
OE te Pe oe i | i a lr 
人 
Ce ee a Was Daa) ee 


图 7-24 
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这 个 代码 在 同一 行 给 出 了 每 天 及 其 前 20 个 交易 日 的 收盘 价 。 
这 将 形成 我 们 为 模型 所 提供 的 对 数组 的 基础 。 但 是 ， 在 完全 就 绪 之 前 ， 还 有 几 个 额外 














自 完 , 我们 将 显 倒 这 些 列 ， 这 样 从 左 到 右 就 是 最 早 时 间 到 最 晚 时 间 的 顺序 ， 如 下 所 示 。 


sp20 = sp20.iloc[:,::-1] 


前 9 日 的 
收盘 





图 7-25 


现在 ， 让 我 们 导入 文 持 同 量 机 ， 并 设置 训练 和 测试 窃 阵 ， 以 及 每 个 数据 点 的 目标 辐 量 。 


from sklearn.svm import SVR 

clf = SVR(kernel='linear') 

xX train = sp20[:-1000] 

y_train = sp20['Close'] .shift(-1)[:-1000] 
xX test sp20[-1000:] 

y_test = sp20['Close'] .shift(-1)[-1000:] 


我 们 只 有 4000 多 个 数据 点 可 以 使 用 ， 并 选择 使 用 最 后 的 1000 个 作为 测试 。 现 在 让 我 
们 拟 合 模型 ， 并 使 用 它 来 测试 样本 之 外 的 数据 ， 上 有 具体 如 下 。 


model = clf.fit(X train, y train) 











preds = model .predict (xX test) 
现在 我 们 有 上 自己 的 预测 了 ， 将 它们 与 实际 的 数据 进行 比较 。 


tf = pd.DataFrame (list(zipl(y test, preds)), columns=['Next Day Close', 





'Predicted Next Close'], index=y test.index) 
tf 


上 述 代 人 码 生 成 图 7-26 的 输出 。 
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评估 模型 的 性 能 
让 我 们 来 看 看 模型 的 性 能 。 如 果 预 测 的 当日 收盘 价 高 于 当日 开盘 价 ， 那 么 我 们 融会 在 
当天 开盘 时 买 入 。 然 后 我 们 会 在 当天 收盘 时 卖 出 。 
接 下 来 ， 我 们 将 问 DataFrame 对 象 添加 一 些 和 额外 的 数据 点 来 计算 结果 ， 如 下 所 示 。 


cdc = sp[['Close']].iloc[-1000:] 


ndo 


ClLose ' ， 
tf2 


7.3 如 何 开发 一 个 交易 策略 


下 一 个 交易 日 下 一 个 交易 日 
收盘 的 实际 值 收盘 的 预测 值 


wm | 
[CC 


ovo rao 7a000 ae 
ET CT or 
I CC 


图 7-26 














sp[['Open']] .iloc[-1000:] .shift(-1) 
tfl = pd.merge (tf, cdc, left index=True, right index=True) 
tf2 = pd.merge (tfl, ndo, left index=True, right index=True) 
tf2.columns = ['Next Day Close', 


'Next Day Open'] 


上 述 代码 生成 图 7-27 的 输出 。 


= 
EEE 


2012-03-13 | 139.910004 139.961618 140.059998 140.100006 
2012-03-14 |140.720001 139.878612 139.910004 140.119995 





收盘 的 实际 值 收盘 的 预测 值 收盘 的 实际 值 开盘 的 实际 值 
2012-03-09 | 137.580002 137.711754 137.570007 137.550003 
140.059998 137.845997 137.580002 138.320007 


图 7-27 


140.300003 140.680807 140.720001 140.360001 
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'Predicted Next Close', 'Current Day 
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在 这 里 ， 我 们 将 添加 以 下 代码 来 获取 收益 和 亏损 的 信号 量 。 


def get signal (L) : 
if r['Predicted Next Close'] > rl['Next Day Open']: 
return 1 





else: 
return 0 
def get ret(r): 
if r['Signal'] == 
return ((r['Next Day Close'] - r['Next Day Open'])/r['Next 
Day Open']) * 100 
else: 
return 0 
tf2 = tf2.assign(Signal = tf2.apply (get signal, axis=1)) 
tf2 = tf2.assign(PnL = tf2.apply (get ret, axis=1)) 
tE2 


上 述 代码 生成 图 7-28 的 输出 。 


| | | | | 

er | es ransooo0 resse0007 | oooon00- 
errants ooroons | se rons raosoome | oo 
erro aora000 oooreora | ao | oa [oooooo00- 


CT rE sa | za | apm | |ooe7m 
CT] as sa | ma | za | uaeey 
CI one | en | oo | ze 
era az aaa [aoao0ne | sa | [ooooo00- 
ET noey are | wan | | over 


图 7-28 
现在 来 看 看 ， 我 们 是 否 能 够 只 使 用 价格 的 历史 来 成 功 地 预测 第 二 天 的 价格 。 我 们 先 从 
计算 所 获得 的 信号 量 点 数 开 始 ， 如 下 所 示 。 


(tf£f2[tf2['Signal']==1] ['Next Day Close'] - tf2[tf2['Signal']==1] ['Next Day 
Open']) .sum() 


上 述 代码 生成 图 7-29 的 输出 。 

目前 为 止 看 上 去 不 太 妙 。 但 是 ， 和 被 测试 的 时 期 有 关 吗 ? 我 们 从 不 独立 地 评估 模型 。 
在 最 近 的 1,000 天 中 ， 基 本 的 盘 中 策略 生成 了 有 多 少 点 ? 

(sp['Close'] .iloc[-1000:] - sp[l'Open'] .iloc[-1000:]).sum() 


上 述 代 人 码 生 成 图 7-30 的 输出 。 
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1.989974000000018 
图 7-29 图 7-30 


因此 ， 看 起 来 我 们 的 新 策略 失败 了 ， 甚 至 没有 比 过 基本 的 盘 中 来 入 策略 。 让 我 们 拿 到 
完整 的 统计 数据 来 比较 两 者 。 
自 完 ， 这 上 段 时 期 的 基本 盘 中 集 略 统计 如 下 。 


get stats((sp['Close'] .iloc[-1000:] — 
sp['Open'] .iloc[-1000:])/sp['Open'] .iloc[-1000:] * 100) 


上 述 代码 生成 图 7-31 的 输出 。 
现在 ， 我 们 模型 的 结果 如 下 。 
get stats (tf2['PnL']) 


上 述 代 码 生 成 图 7-32 的 输出 。 














交易 次 数 : 1000 
ee 克利 次数 ;254 
次 数 : 546 0 
亏损 次 数 : 448 亏损 次 数 : 222 
鳃 亏 平衡 次 数 : 6 僵 亏 平衡 次 数 : 524 
便利 /亏损 比例 1 .219 便利 /亏损 比例 1 .144 
鳃 利 的 平均 值 ; 0 .458 便利 的 平均 值 ; 0.468 
亏损 的 平均 值 ; -0.512 亏损 的 平均 值 ; -0.523 
平均 收益 0 .021 平均 收益 0 .003 
标准 差 : 0.656 标准 差 : 0.453 
最 大 亏损 : -4.175 最 大 亏损 : -2.135 
最 大 和 盈利: 2.756 最 大 盈利 : 2.756 
夏普 比率 : 0.5016 夏普 比率 : 0.0957 
图 7-31 图 7-32 
这 看 起 来 很 糟糕 。 如 果 我 们 修改 交易 策略 怎么 样 ? 如 果 只 有 在 预测 值 比 开盘 值 高 出 一 
定 的 程度 之 上 ， 才 进行 买 入 交易 ， 那 义 会 怎么 样 ? 这 样 做 有 帮助 吗 ? 让 我 们 斌 试看。 我 们 


将 使 用 修改 的 信号 量 重 新 运行 集 上 略 如 下 。 


def get signal (r): 
if rl['Predicted Next Close'] > rl['Next Day Open'] + 1: 
return 1 
else: 
return 0 
def get ret(r): 
if r['Signal'] == 
return ((r['Next Day Close'] - r['Next Day Open'])/r['Next 
Day Open']) * 100 
else: 
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return 0 
tf2 = tf2.assign(Signal = tf2.apPPILIY(get signal, axis=1)) 
tf2 = tf2.assign(PnL = tf2.apply (get ret, axis=1)) 
(tf£f2[tf2['Signal']==1] ['Next Day Close'] - tf2[tf2['Signal']==1] ['Next Day 
OPen ' ] ) .sum() 


上 述 代码 生成 图 7-33 的 输出 。 
现在 的 统计 如 下 。 


get_ stats (tf2['PnL']) 


上 述 代 码 生 成 图 7-34 的 输出 。 


交易 次 数 : 1000 
便利 次 数 : 50 
亏损 次 数 52 
僵 亏 平衡 次 数 : 898 
熏 利 /亏损 比例 0.962 


恒利 的 平均 值 : 0.586 
亏损 的 平均 值 ; -0.676 
平均 收益 -0.006 
标准 差 : 0.256 
最 大 亏损 : -1.966 
最 大 恒利 3 2.756 
夏普 比率 : -0.3636 





-12.610090000000127 


图 7-33 图 7-34 


我 们 已 经 从 太 糙 到 更 糟 糙 了 。 看 来 ， 如 条 过 去 的 价格 历史 表明 好 事 要 来 临 了 ， 你 可 以 
做 恰恰 相反 的 预期 。 我 们 似乎 已 经 使 用 这 个 模型 开 及 了 一 个 逆 癌 的 指标 。 如 果 我 们 继续 探 
索 会 怎样 ”让 我 们 看 看 如 条 翻转 这 个 模型 ， 收 益 会 是 什么 样子 ， 也 台 是 说 当 模 型 预 测 强劲 
的 收益 时 ， 我 们 不 交易 ， 相 反 ， 当 模型 预测 亏损 时 ， 我 们 反而 进行 交易 ， 具 体 如 下 。 


def get signal (r): 
if r['Predicted Next Close'] > rl['Next Day Open'] + 1: 
return 0 
else: 
return 1 
def get ret(r): 
if r['Signal'] == 
return ((r['Next Day Close'] - r['Next Day Open'])/r['Next Day Open']) * 























100 
else: 
return 0 
tf2 = tf2.assign(Signal = tf2.apply (get signal, axis=1)) 
tf2 = tf2.assign(PnL = tf2.apply (get ret, axis=1)) 
(tf£f2[tf£f2['Signal']==1] ['Next Day Close'] - tf2[tf2['Signal']==1] ['Next Day 
Open']) .sum() 
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上 述 代码 生成 图 7-35 的 输出 。 
让 我 们 获取 统计 数据 。 
get_ stats (tf2['PnL']) 
这 将 输出 图 7-36 的 结果 。 


交易 次 数 ; 333 
三 利 次 数 ; 495 
亏损 次 数 : 396 
重 气 平衡 次 数 : 108 
盘 利 /亏损 比例 1L .25 
恒利 的 平均 值 : 0 .446 


亏损 的 平均 值 ; -0.491 
平均 收益 0 , 026 


标准 差 ， 0 .605 
最 大 亏损 4 -4.175 
最 大 副 利 : 1.969 


42.900288000000415 夏普 比率 : 0.6938 





7-35 图 7-36 


看 起 来 我 们 确实 拥有 一 个 逆 问 指标 。 当 我 们 的 模型 预测 下 一 交易 日 会 有 收益 的 时 候 ， 
市 场 表 现 明 显 不 佳 〈 至 少 在 我 们 的 测试 期 间 内 )。 在 大 多 数 情 况 下 这 是 含 都 成 立 ? 不 见得 。 
市 场 倾 癌 于 从 逆转 的 体系 转变 到 趋势 持续 的 体系 。 让 我 们 在 不 同 的 时 期 ， 重 狐 运 行 便 型 来 


进一步 测试 它 。 





xX train = sp20[:-2000] 

y_train = sp20['Close'] .shift(-1)[:-2000] 

xX test sp20[-2000:-1000] 

y_test sp20['Close'] .shift(-1)[-2000:-1000] 
model = clf.fit(X train, y train) 


preds = model .predict (xX test) 
tf = pd.DataFrame (list (zipl(y test, preds)), columns=['Next Day Close', 
'Predicted Next Close'], index=y test.index) 


cdc = sp[['Close']].iloc[-2000:-1000] 
ndo = sp[['Open']].iloc[-2000:-1000] .shift(-1) 
tfl = pd.merge (tf, cdc, left index=True, right index=True) 


tf2 = pd.merge (tfl, ndo, left index=True, right index=True) 
tf2.columns = ['Next Day Close', 'Predicted Next Close', 'Current Day 
Close', 'Next Day OPen ' ] 
def get signal (L) : 
if r['Predicted Next Close'] > rl['Next Day Open'] + 1: 
return 0 
else: 
return 1 
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def get ret (L) : 
if r['Signal'] == 1: 
return ((r['Next Day Close'] - r['Next Day Open'])/r['Next 
Day Open']) * 100 
else: 
return 0 
tf2 = tf2.assign(Signal = tf2.apply(get signal, axis=1)) 
tf2 = tf2.assign(PnL = tf2.apply (get ret, axis=1)) 
(tf£f2[tf£f2['Signal']==1] ['Next Day Close'] - tf2[tf2['Signal']==1] ['Next Day 
Open']) .sum() 


上 述 代码 生成 图 7-37 的 输出 。 

因 些 ,我们 可 以 看 到 ， 新 的 模型 和 新 的 测试 时 间 段 返回 的 分 数 超 过 了 33 点 。 让 我 们 将 
结果 与 相同 时 间 段 的 盘 中 人 策略 进行 比较 。 

(sp['Close'] .iloc[-2000:-1000] - sp['Open'] .iloc[-2000:-1000]) .sum() 


这 将 产生 图 7-38 的 输出 。 


33.60002899999989 |-7.089998000000051 
图 7-37 图 7-38 


因此 ， 在 新 的 测试 时 段 中 ， 我 们 的 逆 癌 模型 似乎 表现 出 明显 的 优势 。 


到 了 现 阶段 ， 我 们 还 可 以 对 这 个 模型 做 一 些 扩 展 。 我 们 甚至 还 没有 开始 使 用 技术 指标 
Re 而 且 我 们 将 交易 限制 在 一 天 。 所 有 这 些 都 可 以 进行 调整 和 扩展 。 
然而 ， 这 里 我 想 介 绍 另 一 个 使 用 完全 不 同 算法 的 模型 。 该 算法 称 为 动态 时 间 规 整 (dynamic 
time ee 它 所 做 的 事情 是 同 你 提供 一 个 表示 两 个 时 间 序 列 之 则 相似 性 的 度量 。 


7.3.3 建 模 与 动态 时 间 扭 曲 
开始 之 前 ， 我 们 需要 从 命令 行使 用 pip 安装 fastdtw 库 ， 命 令 是 Pip install fastdtw。 


完成 后 ， 我 们 将 导入 需要 的 附加 库 ， 如 下 所 示 。 


from scipy.spatial.distance import euclidean 














from fastdtw import fastdtw 


接 下 来 ， 我 们 将 创建 一 个 函数 ， 该 函数 将 接受 两 个 序列 并 返回 它们 之 间 的 距离 。 


def dtw dist(x, y): 
distance, path = fastdtw(x, y, dist=euclidean) 
return distance 
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现在 ， 我 们 将 16 年 的 时 间 序 列 数据 分 成 不 同 的 期 间 ， 每 个 期 间 长 度 为 5 天 。 我 们 为 每 
个 期 间 配 上 一 个 附加 的 点 。 这 将 用 于 创建 我 们 的 x 和 y 数据 ， 其 体 如 下 。 

tseries = [] 

tlen = 5 

for i In range (tlen, len(sp), tlen): 

pctc = spl'Close'] .iloc[i-tlen:i] .pct change() [1:] .values * 100 

res = spl'Close'] .iloc[i-tlen:i+1l] .pct change()[-1] * 100 

tseries.append( (pctc, res)) 


我 们 可 以 看 看 第 一 个 序列 ， 了 解数 据 的 样子 。 
tseries[0] 
上 上述 代码 生成 图 7-39 的 输出 。 


(array([-3.91061453, 0.17889088, -1.60714286, 5.8076225 ])， 
0.34305317324185847) 








现在 有 了 每 个 序列 ， 我 们 就 可 以 通过 算法 运行 它们 ， 来 获得 每 个 序列 相对 于 其 他 序列 
的 距离 度量 。 

dist pairs = [] 

for i In range (len (tseries)): 

for J] in range (len (tseries)): 

dist = dtw dist(tseries[i] [0], tseries[j][0]) 
dist pairs.append((i,j,dist,tseries[i][1], tseries[j][1])) 

一 旦 我 们 有 了 这 些 ， 束 可 以 将 其 放 入 一 个 DataFrame 对 象 。 我 们 将 删除 相互 距离 为 
零 的 序列 ， 因 为 它们 代表 了 相同 的 序列 。 我 们 还 会 根据 序列 的 日 期 进行 排序 ， 只 观测 第 一 
个 序列 在 时 间 上 排 第 二 个 序列 之 前 的 那些 

dist frame = pd.DataFrame (dist pairs, columns=['A','B','Dist', 'A Ret', 'B 

Ret"']) 

sf = 

dist frame[dist frame['Dist']>0] .sort values(['A','B']) .reset index (drop=1) 

sfe = sf[sf['A']<sf['B']] 


最 后 ， 我 们 将 交易 限制 到 相互 距离 小 于 1， 而 第 一 个 序列 的 回报 为 正 的 情况 


winf = sfe[l (sfe['Dist']<=1)&(sfe['A Ret']>0)] 
winf 


上 述 代 码 生 成 图 7-40 的 输出 。 
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让 我 们 看 看 排名 靠 前 的 模式 ， 在 绘制 后 是 什么 样子 。 
plt.plot (np.arange (4), tseries[6] [0]) 


上 述 代 人 码 生 成 图 7-41 的 输出 。 











0.0 


-1.0 


一 .3 


0.0 0.5 10 15 20 25 
图 7-41 
现在 ， 我 们 将 绘制 第 二 个 。 
plt.plot (np.arange (4), tseries[598] [0]) 


上 面 的 代码 将 生成 图 7-42 的 输出 。 
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0.0 


-2.0 


0.0 0.5 10 15 20 25 30 
图 7-42 
从 图 7-41 和 图 7-42 中 可 以 看 出 ， 曲 线 几 乎 相同 ， 这 正 古 我 们 想 要 的 。 我 们 打算 尝试 
找到 所 有 在 第 二 天 获得 正 收 和 益 的 曲线 。 然 后 ， 一 旦 我 们 发 现 某 个 曲线 与 这 些 有 利 可 图 的 曲 
线 之 一 非 第 相似 ， 我 们 融会 买 入 ， 以 期 符 另 一 次 熏 利 。 
现在 构造 一 个 函数 来 评估 我 们 的 交易 。 对 于 相似 的 历史 曲线 ， 只 要 能 返回 正 回 的 熏 利 ， 
我 们 束 会 买 入 。 如 果 发 生 无 法 鳃 利 的 情况 ， 我 们 将 删除 它们 。 


excluded = {} 


return list = [] 











def get returns (r): 
If excluded.get(r['A']) Is None: 
return list.append(r['B Ret']) 
if r['B Ret'] < 0: 
excluded.update({r['A']:1}) 
winf.apply (get returns, axis=1),; 
现在 所 有 交易 的 回报 都 存储 于 return 1ist， 让 我 们 评估 最 终 的 结果 。 
get_ stats (pd.Series (return list)) 


上 述 代码 生 成 图 7-43 的 输出 。 

这 些 结果 是 迄今 为 止 我 们 看 到 的 最 好 结果 。 有 盘 利 /亏损 比例 和 平均 值 远 高 出 其 他 的 模 
型 。 看 来 ， 这 个 新 模型 可 能 行 得 通 ， 特 别 是 与 之 前 的 模型 相 比 。 

现在 ， 为 了 进一步 检视 该 模型 ， 我 们 应 该 通过 其 他 的 时 间 段 来 探索 其 鲁 棒 性 。 周 期 超 
过 四 天 是 否 会 改善 模型 ? 我 们 是 否 应 该 总 是 排除 产生 亏损 的 模式 ?还 有 很 多 额外 的 问题 可 
以 探索 ， 但 我 会 将 它 作为 练习 留 给 读者 。 如 果 你 确实 使 用 了 这 些 技术 ， 就 知道 我 们 只 是 小 
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尝 力 止 ， 还 需要 更 多 和 额外 的 周期 测试 ， 以 适当 地 检验 这 些 模型 。 


交易 次 数 : 569 
价 利 次 数 : 352 
亏损 次 数 : 217 
前 亏 平 衡 次 数 : 0 
前 利 / 亏 损 比 例 1.622 
恒利 的 平均 值 : 0 .572 
亏损 的 平均 值 : -0.646 








平均 收益 0 .108 
标准 差 : 0.818 
最 大 亏损 : -2.999 
最 大 秦 利 : 3.454 
夏普 比率 : 2.0877 
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7.4 小 结 





在 这 一 章 中 ， 我 们 研究 了 股市 。 我 们 学 会 了 如 何 使 用 机 右 学 习 来 制定 交易 策略。 我们 
使 用 支持 问 量 回归 构建 了 第 一 个 策略 ， 使 用 动态 时 间 规 整 构建 了 第 二 个 策略 。 

坚 无 疑问 ， 本 章 的 内 容 本 里 就 可 以 写 一 本 书 。 交 易 束 略 中 许多 最 草 要 的 模块 ， 我 们 其 
至 都 没有 涵盖 。 这 些 包括 投资 组 合 建设 、 风 险 绥 释 和 资金 管理 。 对 于 任何 真正 的 策略 而 言 ， 
这 些 者 是 最 根本 的 一 -可 能 比 区 易 信 号 更 为 重要 。 

布 户 这 将 成 为 你 目 己 探索 的 起 上 后。 但 是 ， 我 需要 再 次 提醒 你 ,“ 战 胜 市 场 ” 是 一 项 几乎 
EE 完成 的 任务 。 在 这 个 市 场 中 ， 你 将 与 世界 上 最 聪明 的 人 们 苋 搜 。 如 来 你 决定 竹 试 ， 
































个 可 肯 
我 祝 你 好 运 。 如 采 结 有 果 不 是 你 想象 的 那样 ， 请 记 住 我 提醒 过 你 ! 
在 下 一 曹 中， 我 们 将 讨论 如 何 构建 一 个 计算 疼 像 相似 度 的 引擎 。 
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第 8 章 
建立 图 像 相似 度 的 引擎 








在 我 们 的 旅程 中 ， 到 目前 为 止 已 丝 和 数字 以 及 文本 打 了 很 多 交道 。 在 本 章 中 ， 我 们 将 
进入 图 像 的 世界 。 虽 然 看 上 去 这 似乎 需要 一 些 更 局 级 的 法 术 ， 但 是 我 可 以 同 你 保证 ， 将 图 
像 转换 为 机 天 可 读 的 格式 和 转换 文本 一 样 简 单 。 


我 们 将 从 图 像 机 器 学 习 的 “hello world” 开 始 : 数字 的 识别 。 不 过 ， 到 本 章 结 束 时 ， 我 
们 将 构建 一 个 高 级 的 、 基 于 图 像 的 深度 学 习 应 用 。 要 达到 怎样 的 境界 ， 我 们 才能 建立 这 个 
高 级 应 用 ? 当然 ， 这 就 是 为 什么 要 寻找 我 们 的 灵 兽 ”1! 

我 们 还 将 花费 相当 多 的 时 间 来 讨论 深度 学习 算法 ， 并 理解 为 什么 它们 是 如 此 重要 ， 为 
什么 大 家 都 在 热 议 它们 。 

本 章 将 讨论 以 下 主题 。 

e。 图 像 的 机 器 学 习 。 

e。 处 理 图 像 。 

。 但 找 相似 的 图 像 。 

e 理 解 深 度 学 习 。 


。 爸 建 图 像 相 似 度 引 和 擎 。 























(D 译 者 注 : 灵 兽 或 者 精神 动物 ， 指 对 于 每 个 人 的 精神 而 言 ， 都 有 一 种 动物 的 天 性 与 其 对 应 ， 有 些 人 相信 找到 目 
己 的 天 性 可 以 增强 和 发 展 目 我 。 
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8. 1 图 像 的 机 器 学 习 


尽管 有 天文 本 和 数 信 型 数据 的 机 画 学 习 应 用 是 讨论 得 最 多 的 ， 还 有 大 量 的 关 似 应 用 是 
关于 图 像 的 。 其 中 许多 集中 在 上 共有 深远 影响 的 前 沿 研 究 领 域 。 

如 今 ， 我 们 习惯 于 运行 Google 搜 索 ， 从 三 个 星期 前 阅读 的 一 个 新 闻 故 事 来 找到 一 些 奇怪 
的 文本 厂 段 ， 并 将 第 一 项 作为 期 每 的 结果 。 现 在 ， 想 象 一 下 ， 如 有 果 我 们 能 够 对 图 片 、 电 影 和 
GIF 动 图 做 同样 的 事情 ， 那 会 怎样 ? 例如， 让 我 们 假设 你 在 六 个 月 前 看 到 一 个 GIF， 它 是 完 
适合 你 当前 的 Slack” 聊 天， 但 你 所 能 记 住 的 只 是 它 有 一 只 美洲 驼 ， 而 一 个 男子 试图 喂 它 。 现 
人 在， 你 很 难 找到 这 张 动 图 ， 因 为 大 多 数 图 片 搜索 圾 要 利用 标签 和 图 像 周 围 的 文本 。 然 而 在 过 
去 几 年 中 ， 像 Google 这 样 的 公司 ， 在 机 各 为 图 像 内 容 打 标签 的 方面 取得 了 惊人 的 进步 。 当 这 
项 研究 完全 公布 于 众 让 大 家 都 来 使 用 ， 它 会 从 根本 上 改变 我 们 搜索 图 像 的 方式 。 

AE Google Research 的 这 篇 博 文 | 
(nhnttp://googleresearch.blogspot.com/2014/11/a-picture-is-worth-th 
ousand-coherent .ntml), 他 们 摘 述 了 实现 这 一 目标 的 进展 ， 并 阐述 了 完成 它 的 一 些 技 
术 挑 战 。 例 如 ， 在 图 8-1 中 ， 可 以 看 到 炉子 上 有 两 个 比萨 饼 。 


| te 
ws | 
TAR 
IT 

















图 8-1 


为 了 像 这 样 标记 图 像 ， 不 仅 需 要 理解 每 个 对 象 ， 还 需要 理解 它们 之 间 的 关系 。 即 使 那 
样 ， 标 签 还 需要 与 目 然 语言 的 短语 罗 配 一 一 也 就 是 匹配 人 类 的 接 述 。 例 如 ， 即 使 在 技术 上 








(时 下 非常 流行 的 一 种 企业 聊天 工具 ， 包 括 了 聊天 群 组 、 大 规模 工具 集成 、 文 件 整 合 、 统 一 搜索 等 功能 。 
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是正 硝 的 ， 一 个 人 也 永远 不 会 将 这 张 图 标注 为 “在 两 个 彼此 相 邻 的 比 芒 饼 之 下 的 烤箱 ”。 

图 像 机 如 学 习 的 男 一 种 应 用 是 人 脸 识 别 。 你 可 能 看 过 最 近 的 新 闻 讨 论 了 Facebook 的 
DeepFace 拉 术 。 据 报道 ， 这 个 应 用 程序 是 如 此 的 先进 ， 即 使 图 像 是 人 们 的 后 脑 勺 ， 它 也 可 
以 识别 东 个 人 一 一 而 且 它 识别 的 准确 度 近 了 乎 完美 。 

虽然 这 似乎 对 整个 社会 有 可 怕 的 影响 ， 但 是 对 于 Facebook 而 言 ， 这 是 价值 连城 的 技术 。 
一 旦 东 个 人 在 单 张 照片 中 被 加 注 了 标签 ， 那 么 不 再 需要 其 他 附加 的 标签 一 一 未 来 所 有 的 照 
瞩 的 标注 都 是 目 动 进行 的 。 

应 该 指出 这 是 一 项 艰巨 的 任务 。 一 个 人 头 及 、 服 饰 、 年 龄 的 改变 一 -更 别 提 每 张 照 三 
中 不 同 的 担 摄 角度 和 光线 一 一 都 使 得 这 项 任务 变 得 极 具 挑 战 性 ， 甚 至 对 人 关 也 古 如 此 。 事 
实 上 ， 就 像 计算 机 已 经 开始 在 游戏 中 《〈 如 Alpha Go) 超越 和 类， 它们 也 开始 在 这 种 识别 任 
务 中 赶 超 我 们 。 


这 种 新 的 机 絮 目 我 掌控 水 平 来 日 于 相对 较 新 的 一 类 算法 ， 其 术语 是 “ 深 破 和 学习” 本草 
和 后 将 仔细 探讨 深度 竺 习 ， 让 你 可 以 理解 它 与 其 他 算法 的 不 同 之 处 ， 以 及 为 什么 它 古 如 此 
的 成 功 。 然 而 ， 现 在 我 们 将 从 头 开 始 ， 先 来 了 解 一 下 处 理 图 像 的 基础 知识 。 


8. 2 处 理 图 像 









































当 我 们 第 一 次 介绍 目 然 语言 处 理 时 ， 你 理解 了 需要 执行 未 种 变换 ， 才 能 以 数字 的 方式 
表示 文字 。 我 们 通过 创建 词 条 -文档 的 卸 阵 做 到 了 这 点 。 如 今 我 们 正在 处 理 图 片 ， 需 要 执行 
为 一 种 变换 ， 然 后 用 数字 形式 呈现 图 像 。 

让 我 们 来 看 看 图 8-2 中 的 几 个 手写 数字 。 

这 些 特定 数字 取 目 MNIST 的 手写 数字 数据 库 〈 征 的 ， 这 些 都 
是 其 实 的 手写 )。 这 个 数据 库 包含 数 万 个 像 这 样 的 数字 ， 采 集 目 糯 
国人 口 普 查 局 员工 和 高 中 生 的 手写 样本 。 8-2 

假设 现在 我 们 想 使 用 机 带 学 习 来 识 列 这 些 数 季 。 我 们 如 何 使 用 数 子 来 表示 这 些 手写 体 ? 


一 种 方法 可 能 是 将 图 像 中 的 每 个 像 妹 映射 到 相同 大 小 的 数字 和 窍 阵 中 。 然 后 ， 我 们 可 以 
通过 窍 阵 中 的 值 来 表示 该 像 系 的 一 些 属性 。 实 际 上 ， 这 正 是 人 们 处 理 的 方法 。 

每 个 数字 图 像 都 家 缩放 并 且 居 中 定位 到 给 定 大 小 的 男 布 上 (28 像素 x28 像素 或 64 像素 
x64 像 系 ), 然后 每 个 像素 的 颜色 强度 在 矩阵 中 被 表示 为 0 到 1 之 间 的 值 , 其 中 1 是 纯 黑 色 ， 
0 是 纯 白 色 。 此 过 程 称 为 灰 度 缩放 。 
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有 了 这 个 简单 的 方法 ， 我 们 将 一 个 真实 世界 中 的 “事物 ” 变 成 一 个 数字 化 的 表示 ， 该 
表示 可 以 用 于 我 们 的 机 和 硕 学 习 算 法 中 。 


下 面 来 看 个 例子 。 我 们 将 MNIST 数据 库 加 载 到 scikit-learn。 


from sklearn import datasets 
import matplotlib.pyplot as plt 
import numpy as np 
matplotlib inline 
digits = datasets.1load digits () 
def display img (img no): 
fig, ax = plt.subplots () 
ax.set xticklabels([]) 
ax.set yticklabels([]) 
ax.matshow (digits.images[img no], cmap = plt.cm.binary),; 
display_img (0) 


上 述 代 码 生 成 图 8-3 的 输出 。 

在 上 面 的 代码 中 ， 我 们 加 载 了 必要 的 包 ， 人 然后 是 数字 数据 集 ， 
最 后 ， 我 们 使 用 matplotlib 展示 了 第 一 个 数字 。 这 是 一 个 粗略 
的 表示 ， 因 为 它 被 缩小 到 了 8x8， 或 总 共 64 个 像素 。 运 行 以 下 命令 ， 
可 以 看 到 实际 的 窍 阵 表示 。 


Qigits .Images [0] 


上 述 代码 生成 图 8-4 的 输出 。 
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这 些 特定 的 数字 在 0 和 16 之 间 缩 放 ,， 但 可 以 看 到 , 它们 和 图 像 中 每 个 像素 的 羚 色 强度 
是 相互 关联 的 。 如 果 在 算法 中 应 用 这 些 ， 我 们 需要 将 8x8 的 矩阵 展开 为 长 度 64 的 单个 同 量 。 
如 下 上 所 示 。 


Qigits.dqata[0] .shape 


上 述 代 人 码 生 成 图 8-5 的 输出 。 
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然后 这 将 成 为 我 们 训练 集中 的 一 行 一 -也 融 是 特征 癌 量 。 使 用 以 下 命令 ， 我 们 也 可 以 
看 到 和 数据 相关 联 的 标签。 
digits.target[0] 


上 述 代 人 码 生 成 图 8-6 的 输出 。 


(64)| 0 
图 8-5 图 8-6 


现在 我 们 准备 融 绪 ， 可 以 将 这 个 图 像 数 据 和 输入 算法 了 。 


到 目前 为 止 ， 我们 只 讨论 了 如 何 使 用 黑 日 图像， 不 过 令 人 惊讶 的 是 ， 处 理 彩色 图 片 也 
征 一 样 的 简单 。 每 个 像 系 可 以 使 用 三 个 特征 来 表示 ， 每 个 RGB 值 对 应 一 个 特征 。 或 者 ， 如 
末 倾 问 于 保留 单个 特征 ， 那 么 可 以 取 三 个 RGB 值 的 平均 值 。 


现在 我 们 已 经 将 图 像 转 换 成 机 和 硕 可 以 处 理 的 表示 ， 接 下 来 看 看 我 们 可 以 使 用 哪些 算法 。 


8. 3 查找 相似 的 图 像 























通常 ，MNIST 的 数字 数据 库 是 用 于 分 类 任务 ， 即 给 定 手写 数字 ， 找 到 它 对 应 的 目标 标 
签 。 这 里 ， 我 们 将 以 不 同 的 方式 使 用 它 。 对 于 一 张 给 定 的 图 像 ， 我 们 将 尝试 在 数据 集中 ， 
找到 与 它 最 相似 的 另外 一 张 图 像 。 这 是 一 个 无 监督 学 习 的 任务 ， 而 不 是 一 个 监督 学 习 的 任 
务 ， 因 为 我 们 不 会 使 用 标签 进行 训练 

本 书 之 前 介绍 过 一 个 处 理 文本 特征 的 算法 ， 我 们 将 从 这 个 算法 开始 。 该 算法 是 余弦 相 
似 性 。 回 想 一 下 ， 这 个 算法 计算 疱 矩阵 中 每 一 行 的 单位 向 量 。 每 行 和 其 他 的 行进 行 点 乘 ， 
为 我 们 提供 每 对 向 量 之 间 的 余弦 夹 角 。 最 终 的 结果 是 ， 我 们 拥有 了 一 个 单独 的 指标 ， 它 千 
诉 我 们 两 张 图 片 有 多 么 的 “接近 ”。 现 在 来 看 看 具体 如 何 操作 。 

首先 ， 我 们 将 导入 需要 的 库 。 


import pandas as Pd 





























from sklearn.metrics.pairwise import cosine similarity 


然后 ， 我 们 将 计算 第 一 个 图 像 “索引 号 为 0) 和 所 有 其 他 图 像 之 间 的 相似 度 。 


X = digits.data 
co sim = cosine similarity(X[0] .reshape(1,-1), X) 


当 我 们 输入 一 维 数组 时 ，scikit-learn 需要 我 们 重 塑 数组 。 
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最 后 ， 我 们 将 结果 放 在 一 个 pandas 的 DataFrame 对 象 中 ， 并 奉 看 该 结 末 。 


cosf = pd.DataFrame (co sim).T 


cosf.columns = ['similarity'] 
cosf.sort values('similarity', ascending=False) 


这 将 产生 图 8-7 的 输出 。 
我 们 可 以 看 到 第 一 行 的 值 是 1 一 一 一 个 完美 的 相似 度 一 一 因为 这 是 我 们 的 原 图 。 下面 是 
按照 相似 度 排序 的 所 有 其 他 图 像 。 下 和 耐看 看 编写 877 的 图 像 。 我 们 将 使 用 之 前 创建 的 函数 


来 显示 它 。 


display img (877) 





这 将 产生 图 8-8 的 输出 。 


图 8-7 图 8-8 
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可 以 看 出 ， 这 个 图 像 也 是 一 个 0， 表 明 我 们 在 正确 的 轨道 上 前 进 。 让 我 们 并 排 对 比 编 
号 0 的 图 像 与 编号 877 的 图 像 ， 如 图 8-9 所 示 。 


我 们 可 以 看 到 ， 这 两 个 和 零 是 非 第 相似 的 。 我 打赌 他 们 是 由 同一 个 人 书写 的 。 
现在 ， 让 我 们 做 点 有 趣 的 事 悄 。 和 0 差异 最 大 的 是 什么 呢 ? 下 面 来 看 看 。 节 不 相似 的 


图 像 是 编号 1626 。 








display_ img (1626) 
这 将 产生 图 8-10 的 输出 。 
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8-9 图 8-10 


令 人 震惊 的 是 ， 我 们 刚刚 确认 了 二 进 制 编码 。 与 1 相反 的 是 ， 事 实 上 ， 就 是 一 个 0， 


哈哈 ! 





让 我 们 来 看 看 在 图 像 机 器 学 习 应 用 中 经 常 采 纳 的 男 一 种 算法 。 它 被 称 为 卡 方 核 
(chi-squared kernel)， 和 余 弱 相似 度 计算 类 似 ， 它 将 给 出 一 个 标量 值 ， 告 诉 我 们 两 个 同 量 之 
间 的 相似 上 度 ， 如 图 8-11 所 示 。 


让 我 们 来 看 看 卡 方 核 的 相似 度 和 之 前 运行 的 余 弱 相似 度 ， 这 两 者 相 比较 如 何 。 


from sklearn.metrics.pairwise import chi2 kernel] 
k sim = chi2 kernel (X[0] .reshape(1,-1), X) 

kf = pd.DataFrame (k sim).T 

kf.columns = ['similarity'] 











kf.sort values('similarity', ascending=False) 


上 述 代码 生成 图 8-12 的 输出 。 
ls 
oh 
Ea 





8-11 图 8-12 
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虽然 顺序 与 余 弱 相似 度 的 结果 有 些 不 同 ， 但 排名 靠 前 的 值 大 多 数 都 是 相同 。 

让 我 们 来 看 看 卡 方 核 测量 出 来 的 最 相似 图 像 。 

disPLIay_img (1167) 

这 将 产生 图 8-13 的 输出 。 

再 次 ， 我 们 找到 一 个 与 原 图 非常 相似 的 0。 

为 什么 要 在 两 者 (余弦 相似 度 与 卡 方 核 〉 中 选择 一 个 ? 
你 可 以 使 用 任何 一 个 并 得 到 相似 度 的 结果 一 一 如 我 们 已 经 看 
到 的 那样 一 一 余弦 相似 度 已 经 被 证 明 是 自然 语言 处 理工 作 的 
首选 ， 而 卡 方 核 是 处 理 图 像 任务 的 直接 选择 。 图 8-13 

到 现在 为 止 ， 你 有 理由 怀疑 我 们 怎么 可 能 通过 仪 舍 一 位 数字 的 微小 黑 框 和 日 框 ， 就 确 
定 图 像 是 比 院 饼 还 是 猴子 ， 或 者 摩托 车 什么 的 。 根 据 我 们 目前 所 做 的 ， 似 乎 还 不 能 收集 足 
够 的 信息 来 辨别 图 片 是 什么 。 事 实 上 ， 这 是 也 是 真 的 。 

只 使 用 字母 的 计数 ， 我 们 几乎 不 可 能 区 分 《白人 鲸 记 》 和 《傲慢 与 偏见 》。 同 样 的 道理 ， 
我 们 需要 添加 男 外 一 层 抽象 来 辨别 图 像 。 对 于 文本 而 言 ， 这 意味 着 使 用 单词 和 单词 的 组 合 ， 
而 对 于 视 党 信息， 类 似 地 ， 我 们 使 用 像 系 的 聚集 。 这 些 像 叉 的 聚集 形成 所 谓 的 视觉 词汇 ， 
这 种 方法 被 称 为 视觉 词 包 一 -pag of visual words。 之 所 以 选择 了 这 样 的 术语 ， 是 因 
为 文本 处 理 使 用 了 词 包 一 bag of words 一 一 并 忽略 了 单词 之 间 的 顺序 ， 而 视 党 词 包 使 
用 了 同样 的 方式 ， 忽 略 了 视 党 词汇 的 空间 顺序 。 

现在 ， 为 了 进一步 说 明 视 党 词 包 的 过 程 ， 让 我 们 在 更 高 的 层面 来 理解 这 个 概念 。 因 为 
视觉 词 包 的 起 源 来 目 纹 理 识 别 ， 我 们 将 使 用 图 8-14 的 的 例子 。 
































图 8-14 


这 里 ， 我 们 有 三 种 不 同 的 纹理 。 每 个 包括 一 系列 重复 的 纹理 单元 ， 这 些 单 元 被 称 为 
textrons。 这 些 形成 了 视 党 词汇 的 基础 ， 如 图 8-15 所 示 。 
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图 8-15 


然后 ， 每 个 样本 可 以 表示 为 这 些 特征 上 的 直方 图 ， 如 
图 8-16 所 示 。 

正如 我 们 在 图 8-16 所 看 到 的 ， 这 些 可 以 和 词 包 中 文 pd 
档 针对 单词 的 直方 图 进行 类 be o oe jin dictionary 

现在 ,我 应 该 指出 ， 这 种 摘 述 主要 是 概念 性 的 。 涉 及 
视 党 词 包 的 实现 时 ， 存 在 更 多 的 事项 。 完 整 的 细节 超出 了 
本 书 的 讨论 范围 , 不 过 其 中 一 些 工 作 应 该 包括 选择 兴趣 点 
作为 视觉 词汇 ， 以 及 使 特征 尺度 不 变 的 规范 化 。 

一 旦 完成 预 处 理 ， 吏 像 文 本 处 理 那 样 ， 我 们 要 计算 相 
似 度 和 矩阵， 然后 将 数据 输入 分 类 算法 。 再 次， 像 文 本 人 处理 
那样 ， 算 法 通常 是 SVM。 


8.4 了 解 深度 学 当 























虽然 视觉 词 包 方法 的 表现 令 人 印象 深刻 ， 但 是 最 近 ， 利 用 所 谓 深 度 学 习 的 新 方法 已 然 
出 现 。 深 度 学 习 为 人 工 智 能 领域 带 来 了 新 的 生机 ， 因 为 它 不 断 地 在 提升 我 们 的 基准 线 。 本 
章 稍 后 ， 我 们 将 在 图 像 相 似 度 引 擎 中 使 用 深度 学 习 ， 不 过 ， 首 先 我 们 将 介绍 究竟 什么 是 深 
度 学 习 ， 以 及 为 什么 它 是 如 此 重要 的 突破 。 

深度 学 习 源 于 已 经 存在 了 几 十 年 的 算法 。 这 些 算法 ， 称 为 感知 器 ， 对 人 类 大 脑 中 的 神 
经 元 进行 建 模 。 

在 参加 生物 学 课程 时 ， 你 可 能 已 经 学 习 过 神经 元 是 如 何 工 作 的 。 基 本 的 信息 如 下 。 

e 每 个 神经 元 连接 到 其 他 神经 元 组 成 的 网 络 。 

e 当 神经 元 激发 时 ， 它 将 信号 发 送 到 和 它 连 接 的 神经 元 。 

e 接 收 这 个 信号 的 神经 元 ， 根 据 一 些 已 建立 的 激活 靖 值 ， 或 者 激发 ， 或 者 不 激发 。 

这 是 感知 模型 的 基础 ， 如 图 8-17 所 示 。 

我 们 可 以 将 神经 元 视 为 一 个 单独 的 决策 单元 。 假 设 神经 元 的 任务 是 决定 我 们 是 否 应 该 
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接受 一 个 新 的 工作 机 会 。 在 这 个 场景 中 ， 我 们 的 相关 输入 可 能 是 工作 地 点 、 薪 酬 、 对 未 来 经 
理 的 印象 ， 以 及 办 公 室 环境 等 。 这 种 情况 下 , 我们 有 一 个 二 元 决策 : 1， 接 受 这 份 工作 ,或 0， 
不 接受 。 每 一 项 输入 都 帮助 我 们 确定 是 否 接受 该 工作 ， 但 是 ， 很 显然 ， 它 们 不 会 具有 同样 的 
影响 力 。 例 如 ， 如 果 办 公 室 是 10 分 中 的 满分 ， 但 工资 只 能 拿 到 10 分 中 的 2 分 ， 我 们 很 可 能 
拒绝 这 个 机 会 。 反 之 ， 如 果 办 公 室 是 10 分 中 的 2 分 ， 而 工资 是 10 分 中 的 满分 ， 我 们 很 可 能 
会 接受 它 。 因 此 ， 在 决策 过 程 中 ， 薪 酬 比 办 公 室 的 环境 更 重要 。 在 感知 器 的 语言 中 ， 我 们 
会 说 薪酬 这 个 输入 的 权重 更 高 。 对 所 有 的 输入 一 一 x 变量 一 一 修改 它们 的 权重 一 一 w 变量 ， 
我 们 将 获得 一 个 值 ， 它 会 触发 或 不 触发 我 们 的 函数 。 
从 数学 上 来 讲 ， 我 们 有 图 8-18 的 公式 。 











| Oif 2 wx, < threshold 
output = | 


1 if 2 wx, > threshold 





图 8-17 图 8-18 


到 目前 为 止 ， 我们 已 经 讨论 了 感知 看 如 何 担当 一 个 决 全 单元 ， 但 是 还 没有 讨论 学 习 是 
如 何 进行 的 。 


为 了 理解 和 学习 的 过 程 ， 让 我 们 试 着 用 感知 右 学 习 一 些 决策 规则 。 

我 们 要 学 习 的 第 一 条 规则 称 为 AND 函数 。AND 也 数 是 像 这 样 工 作 的 : 有 两 个 输入 ， 
当 两 个 输入 都 为 正 时 ， 我 们 希望 函数 输出 1。 如 果 一 个 输入 是 负 的 ， 或 者 两 个 都 是 负 的 ， 
我 们 希望 它 输出 0。 我 们 将 权重 设置 为 0 到 1 之 间 的 随机 数 。 

让 我 们 开始 学 习 的 过 程 。 这 里 x 的 输入 等 于 1，Z% 的 输入 等 于 -1。 克 被 随机 设 为 0.8， 
W2 被 随机 设 为 0.2。 因 为 两 者 都 必须 是 正 的 ， 输 出 才 为 1， 所 以 国 值 是 大 于 1 的 任何 值 。 

因此 ， 我 们 有 吏 x 和 + 取 x 和 为 1x0.8+-1x0.4=0.8-0.4=0.4。 现 在 ， 因 为 我 们 期 
望 输出 为 0， 所 以 说 误 莽 为 0.4。 现 在 我 们 将 尝试 改进 模型 ， 将 这 些 错 
误 推 回 到 输入， 让 其 更 新 权重 。 为 此 ， 我 们 将 使 用 图 8-19 的 公式 轮流 
进行 评估 。 
中 ， 我 们 的 目标 结果 是 0， 实 际 结果 是 0.4。 现 在 忽略 n 项 。 它 是 学 习 率 ， 决 定 了 更 新 幅度 
应 该 有 多 大 或 多 小 。 现 在 ， 我 们 假设 它 补 设置 为 1。 
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让 我 们 看 看 x 如 何 更 新 它 的 重量 。 因 此 ， 我们 有 1x (0-0.4) x1， 它 等 于 -0.4。 这 是 
w 的 差 值 ， 因 此 ， 更 新 公式 1， 我 们 有 0 .8-0.4， 这 给 出 了 wi 的 新 权重 为 0.4。 因 此 ,x 
的 权重 下 降 。 那 么 x; 的 权重 又 如 何 ? 


ee 
以 此 来 更 新 w。 从 此 可 以 看 到 ， 两 个 权重 相互 接近 了 ， 这 正 是 我 们 所 希望 的 。 如 果 给 
一 个 足够 小 的 学 习 率 ， 然 后 继 给 0 A 
函数 。 

虽然 这 个 模型 看 上 去 极其 简单 一 - 没 错 ， 它 也 有 明显 的 局 限 性 (例如 ， 无 法 学 习 XOR 
函数 ) 一 一 但 它 是 当今 深度 学 习 框 架 的 基石 。 人 们 对 这 种 模型 进行 渐进 的 创新 ， 提 高 了 其 
学 习 复 杂 表 达 的 能 力 ， 包 括 结合 S 形 函 数 代 蔡 阶梯 函数 、 扒 登 神 经 元 形成 分 层 网 络 ， 以 及 
更 好 的 方法 来 癌 下 层 分 配 错误 。 


总 之 ， 这 些 更 新 使 得 模型 不 仅 可 以 学 习 非 线性 表示 《学 习 XOR 函数 所 必需 的 )， 还 可 
以 学 习 任 何其 他 模式 。 通 过 堆 昨 多 层 的 神经 元 一 一 一 层 的 输出 作为 为 一 层 的 输入 一 一 每 个 
更 高 的 层次 都 能 够 识别 更 复杂 的 数据 表示 。 


在 图 8-20 中 ， 我 们 看 到 了 这 个 过 程 在 人 脸 识别 任务 中 是 如 何 进行 的 。 




















图 8-20 


图 8-20 中 从 磊 到 右 ， 我 们 可 以 在 深度 学 习 网 络 的 每 个 隐藏 层 中 ， 退 踩 个 断 增 加 的 表达 


复杂 性 。 


在 图 8-21 中 ， 我 们 看 到 的 网 络 只 有 一 个 隐藏 层 ， 不 过 ， 拥 有 多 个 隐藏 层 是 常规 的 实践 
做 法 ， 而 它 也 是 深度 学 习 这 一 术语 的 来 源 。 


我 们 可 以 认为 这 际 像 让 人 摸索 的 比喻 。 


“感受 到 一 条 腿 的 让 人 次 大 象 融 像 一 根 柱子 ， 感 党 到 尾巴 的 那个 人 说 大 象 就 像 一 
子 ; 感受 到 野 干 的 那个 人 说 大 象 丈 像 一 标 树 ;， 感 受到 且 示 的 那个 人 说 大 象 束 像 一 eat 
感受 到 肚子 的 那个 人 说 大 象 束 像 一 面 墙 ， 感受 到 象 才 的 那个 人 说 大 象 束 像 实心 沪 。” 


一 一 维基 百科 。 
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Hidden 


Input 





8-21 


没有 一 个 人 能 够 纵 虎 全 局 ， 仅 仅 通 过 卢 面 的 观察 ， 他 们 无 法 正确 地 说 出 正在 评 佑 的 是 
什么 。 但 是 ， 将 同样 的 属性 结合 起 来 ， 反 复 观 察 ， 再 加 上 被 香 知 它 是 头 大 象 ， 那 么 下 一 次 
遇见 柱子 + 绳子 + 树干 + 刷子 + 载 + 实心 管 的 组 合 ， 我 们 可 能 认为 它 驶 是 一 头 大 象 。 

现在 我 们 对 深度 学 习 有 了 更 好 的 理解 ， 下 面 将 继续 使 用 深度 学 习 来 创建 应 用 程序 。 


8.5 构建 图像 相似 度 的 引擎 








如 果 你 一 耳 读 到 现在 ， 那 么 现在 可 以 开始 圣 受 成 来 了。 我 们 将 利用 人 工 留 能 的 强大 力 
量 做 一 些 真 正 重要 的 事情 。 我 们 将 找到 你 的 灵 吐 。 虽 ,不 完全 是 。 我 们 将 使 用 它 ,， 在 CIFAR-10 
图 像 数 据 集 中 找到 最 像 你 的 猫 。CIFAR-10 是 什么 ? 这 个 数据 集 是 用 作 计 算 机 视觉 研究 标准 
的 一 组 图 像 。 它 包括 10 个 分 类 ,成 干 上 万 的 图 像 , 例如 狗 、 青 蛙 ， 飞 机 和 汽车 等 每。 不 过 ， 
对 我 们 而 言 最 重要 的 是 ， 其 中 包括 猫 。 

现在 , 我 们 需要 理解 在 所 有 讨论 的 算法 中 , 深度 学 习 往往 是 最 强大 的 , 但 同时 对 于 “家 
性 使 用 者 ”也 是 最 不 友好 的 。 我 的 意思 是 ， 相 对 于 其 他 算法 ， 深 度 竺 习 通 第 需要 更 长 的 训 
练 时 间 、 更 多 的 计算 能 力 。 事 实 上 ， 这 也 是 神经 网 络 染 构 没有 被 快速 接受 的 原因 之 一 。 随 
看 较 便 宜 的 GPU 图 形 处 理 单元 ) 出现， 它 才 成 为 研究 人 员 的 可 选项 之 一 。 


鉴于 此 ， 我 们 将 采取 两 大 措施 来 减少 模型 的 处 理 时 间 。 


第 一 个 措施 是 利用 GraphLab Create。 它 是 一 个 很 流行 的 大 规模 机 右 学 习 框 染 。 它 提供 了 
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一 个 很 好 的 API， 有 点 像 pandas 和 scikit-learn 的 结合 。 通 常 ， 它 是 收费 的 服务 一 一 
需要 许可 证 ， 但 是 对 于 学 术 用 途 是 免费 的 ， 似 乎 还 包括 了 Bootcamps 和 大 规模 在 线 公 开 谍 
程 (MOOC)， 如 Coursera。 请 务必 阅读 该 站 点 的 说 明细 节 。 


Graphlab 的 安装 很 人 简单 。 细节 可 以 在 这 里 找到 
https://dato.com/download/install-graphlab-create-command-line.ht 
ml。 基 本 上 ， 它 只 需要 填写 表单 就 可 以 获取 许可 证 ， 然 后 复制 并 粘贴 它 提 供 的 pip 命令 。 


注意 ， 你 必须 使 用 Python 2.7。Python 3 目前 还 不 支 


缩短 处 理 时 间 的 下 一 个 措施 是 使 用 被 称 为 迁移 学 习 的 东西 。 迁 移 学 习 的 基本 思想 是 利 
用 大 规模 的 、 高 度 训 练 的 、 针 对 霖 项 具体 任务 的 深度 学 习 网 络 的 能 力 。 然 后 ， 我 们 雁 反 这 
些 网 络 的 最 高 层 ， 以 使 用 较 低 层 作 为 特征 ， 让 其 运作 在 没有 受过 训练 的 任务 中 。 请 记 住 ， 
在 事物 的 综合 表示 方面 ， 较 低层 的 特殊 性 更 少 。 在 数字 识别 的 世界 中 ， 较 低层 可 以 表示 环 
状 或 耳 线 ， 而 较 局 层 更 多 的 是 关注 0 或 1。 在 大 象 识别 的 世界 中 ， 低 层 更 多 的 是 基于 刷子 和 
树干 。 在 迁移 学 习 中 ， 我 们 可 以 提取 这 些 较 低级 别 的 特征 ， 以 便 将 它们 应 用 到 新 的 领域 
那些 它们 没有 专门 受训 过 的 领域 。 





























本 节 中 的 很 多 信息 都 参考 了 有 关机 器 学 习 基 础 的 Coursera 课 
程 ， 可 用 这 里 访问 : 
https://www.coursera.org/learn/ml-foundations,., 
如 果 你 有 兴趣 深入 研究 这 些 材 料 ， 我 强烈 推荐 你 阅读 它 。 

有 了 这 些 ， 让 我 们 开始 编码 。 灵 兽 等 者 我 们 呢 。 

我 们 将 从 包 的 引入 开始 。 


import graphlab 





graphlab.canvas.set target('ipynb') 


接 下 来 ， 我 们 从 CIFAR-10 数据 集中 加 载 将 要 使 用 的 一 组 图 像 。 


gl1 img = 

graphlab.SFrame ('http://s3.amazonaws .com/dato-datasets/coursera/deep learni 
ng/image train data') 

gl1 img 


这 将 产生 图 8-22 的 输出 。 
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深度 学 习 的 特征 图 人 数组 
24 Height: 32 Width: 32 bird [0.242871761322， [73.0, 77.0, 58.0, 71.0, 
1.09545373917, 0.0, ... 68.0, 50.0, 77.0, 69.0, ... 
33 Height: 32 Width: 32 cat [0.525087952614, 0.0， [7.0, 5.0, 8.0, 7.0, 5.0, 
0.0, 0.0, 0.0, 0.0, ... 8.0, 5.0, 4.0, 6.0, 7.0, ... 


36 Height: 32 Width: 32 cat [0.566015958786, 0.0， [169.0, 122.0, 65.0, 
0.0, 0.0, 0.0, 0.0, ... 131.0, 108.0, 75.0, ... 

70 Height: 32 Width: 32 [1.12979578972, 0.0, 0.0, [154.0, 179.0, 152.0, 
0.778194487095, 0.0, ... 159.0, 183.0, 157.0, ,.. 

Height: 32 Width: 32 bird [1.71786928177, 0.0, 0.0, [216.0, 195.0, 180.0, 
0.0, 0.0, 0.0, ... 201.0, 178.0, 160.0, ... 


图 8-22 





你 会 看 到 几 列 标识 信息 ， 例 如 编号 和 标签 ， 你 还 会 注意 到 名 为 “深度 特征 ”的 列 。 这 
些 特 征 是 从 一 个 大 规模 的 、 经 过 训练 的 深度 学 习 网 络 提 取 而 来 。 稍 后 我 们 将 解释 如 何 使 用 
它们 。 现 在 ， 让 我 们 继续 。 

使 用 下 面 的 代码 ， 我 们 可 以 观察 一 下 图 像 。 

gl img['image'] [0:5].show() 

这 将 产生 图 8-23 的 输出 。 


SArray 中 的 5 张 图 片 


可 区 


入 8-23 











不 圣 的 是 ， 图 片 非 常 小， 但 你 可 以 调整 它们 的 大 小 ， 让 其 看 得 稍微 清楚 些 。 
graphlab.image analysis.resize(gl img['image'] [2:3], 96,96) .show () 
这 将 产生 图 8-24 的 输出 。 


现在 ， 所 有 用 于 比较 的 图 片 都 已 经 加 载 完 毕 了 ， 我 们 只 需要 加 载 目 己 的 照片 。 我 会 加 
载 目 己 的 一 张 赂 请 ， 它 应 该 适用 于 这 个 任务 。 当 然 ， 你 需要 在 该 位 置 加 载 你 目 己 的 。 

img = graphlab.Image('/Users/alexcombs/Downloads/profile pic.jpg') 

ppsf = graphlab.SArray ([Img] ) 


ppsf 
ppsf.show() 





graphlab.image analysis.resize (ppsf, 32,32) 
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这 将 产生 图 8-25 的 输出 。 


SArray 中 的 一 张 图 上 


SArray 中 的 一 张 图 片 





8-24 图 8-25 


接 下 来 , 我 们 需要 将 该 图 像 放 入 包含 之 前 训练 图 像 的 数据 框 中 。 但 是 ， 要 做 到 这 一 
我 们 首先 需要 提取 其 特征 。 具 体 如 下 。 


ppsf = graphlab.SFrame (ppsf) .rename ({'XL': 'image"}) 
ppsf 


上 述 代码 生成 图 8-26 的 输出 。 
现在 ， 我 们 将 提取 图 像 的 深度 特征 。 


ppsfl'deep features'] = deep learning model.extract features (ppsf) 
ppsf 


上 述 代 人 码 生 成 图 8-27 的 输出 。 


深度 特征 


es 32 ”宽度 : 32 [2.32031345367, 0.0, 0.0， 
站 站 的 
高 度 : 32 宽度: 32 0.0, 0.0 0.31992828846, .. 


[1 行 X1 列 ] [1 行 X2 列 ] 
图 8-26 图 8-27 
此 刻 , 我 们 只 需要 一 些 最 后 的 操作 ,， 束 能 让 自己 的 照 厂 与 训练 的 图 片 拥有 同样 的 格式 。 
ppsf['label'] = 'me' 
gl1 img['id'] .max () 
49970 
上 述 代码 生成 图 8-28 的 输出 。 
8-28 











我 们 看 到 数据 框 中 最 大 的 ID 编号 为 49,970。 我 们 为 目 己 照 厂 分 配 的 编号 为 
50,000， 这 样 做 只 是 为 了 便于 记忆 。 





ww ai bbt.com DODODDDDOD 





202 第 8 章 建立 图 像 相 似 度 的 引擎 


ppsf['id'] = 50000 
ppsf 


上 述 代 人 码 生 成 图 8-29 的 输出 。 


高 度 : 32 宽度 : 32 [2.32031345367, 0.0, 0.0， 50000 
0.0, 0.0, 0.31992828846, ... 


[1 行 x 4 列 ] 








8-29 
和 差不多 快 好 了 ， 现 在 我 们 将 使 用 这 些 列 来 连接 所 有 的 内 容 。 
labels = ['id', 'image', 'label', 'deep features ] 


part train = gl img[labels] 
new train = part train.append (ppsf [labels]) 
new train.tail () 


这 将 产生 图 8-30 的 输出 。 


49913 | 高 度 :32 宽度 :32 | automobile [1.2023819685， 
0.342965483665, 0.0，.… 

49919 高 度 : 32 宽度 :32 | automobile [0.0, 0.0, 0.0, 
0.769036352634, 0.0,，.… 


49927 高 度 :32 宽度 : 32 [0.558163285255, 0.0， 
1.05110442638, 0.0, 0.0, ... 


49958 高 度 :32 宽度 : 32 cat [0.674960494041, 0.0， 
0.0, 1.9640891552, ... 
49970 高 度 :32 宽度 : 32 cat [1.07501864433, 0.0, 0.0， 
0.0, 0.0, 0.0, ... 
50000 高 度 :32 宽度 : 32 [2.32031345367, 0.0, 0.0， 
0.0, 0.0, 0.31992828846,，.… 


8-30 








好 吧 ， 我 们 现在 有 一 个 很 大 的 数据 框架 ， 包 含 所 有 的 图 像 ， 以 及 表示 为 向 量 的 图 像 深 
度 特征 。 此 时 ， 我 们 可 以 使 用 非常 简单 的 模型 来 找到 最 相似 的 图 像 。 

我 们 首先 使 用 k- 最 近邻 居 模 型 ， 将 某 个 随机 选取 的 猫 和 集合 中 其 他 的 猫 进 行 比较 ， 感 
觉 一 下 我 们 的 模型 效果 如 何 。 


knn model = 
graphlab .nearest neighbors.create (new train,features=['deep features'], 
label='id') 


上 述 代 人 码 生 成 图 8-31 的 输出 。 
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Starting brute force nearest neighbors model training. 


8-31 





让 我 们 看 看 被 测试 的 小 猫 。 
cat test = new train[-2:-1] 
graphlab.image analysis.resize(cat test['image'], 96,96) .show () 


这 将 产生 图 8-32 的 输出 。 SArray 中 的 一 张 图 片 
因此 ， 这 个 可 爱 的 像素 化 小 怪物 束 是 我 们 的 测试 主角 。 让 
我 们 找到 和 它 和 面貌 相似 的 其 他 小 猫 。 


sim frame = knn model.query (cat test) 





sim frame 


上 述 代码 生成 图 8-33 的 输出 。 8.32 


Starting pairwise querying. 
十 二 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 


| Query points | # Pairs | % Complete. | Elapsed Time | 


| 22.45ms 


| 297.624ms 


查询 标签 指向 标签 距离 
0 6186 38.0348505275 
0 15882 39.0333337944 
a 24302 40.5205578019 
0 16289 40.6156967032 


[5 行 x 4 列 ] 





8-33 








最 后 让 我 们 看 看 匹配 上 的 小 猫 们 。 


def reveal my twin (x): 





return gl img.filter by(x['reference label'],'id') 
spirit animal = reveal my twin(knn model.query (cat test)) 
spirit animall[l'image'] .show () 
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这 将 导致 图 8-34 的 输出 。 


Faigle 


这 不是 结 霖 。 每 个 图 像 是 一 只 狐 ， 我 觉得 它们 看 起 来 部 很 像 被 测试 的 小 猫 。 

让 我 们 再 运 行 一 次 ， 选 择 男 一 只 小 独 。 这 里 我 省 略 了 代码， 只 是 给 你 看 看 被 测试 的 猫 
和 相似 僵 找 的 结果 。 

自 完 ， 这 是 被 测试 的 对 象 ， 如 图 8-35 所 示 。 





SArray 中 的 一 张 图 片 





图 8-35 


现在 是 相似 度 匹 配 的 结束 ， 如 图 8-36 所 示 。 


SArray 中 的 5 张 图 片 


加 | | 四 | 同 | 四 


图 8-36 


对 于 编写 145 的 图 片 ， 我 必须 承认 这 个 匹配 相当 不 错 。 然 而 ， 现 在 ， 到 了 我 们 一 下期 
符 的 时 刻 。 让 我 们 揭示 我 的 动物 双胞胎 。 


me test = new train[-1:] 





graphlab.image analysis.resize (me test['image'], 96,96) .show() 


这 将 产生 图 8-37 的 输出 。 
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SArray 中 的 一 张 图 片 





图 8-37 


现在 ， 我 们 运行 一 次 搜索 ， 合 找 和 我 的 照 厂 最 匹配 的 图 片 。 


sim frame = knn model .query (me test) 


sim frame 


上 述 代 人 码 生 成 图 8-38 的 输出 。 


Starting pairwise querying. 
+-—------------ 十 -一 一 一 一 -一 一 一 +---------- 一 一 + 一 一 一 一- 一- 一 一 一 十 


Query points | # Pairs | % Complete. | Elapsed Time | 


| 31.203ms 


| 330.71ms 


| 
0 | 6567 38.5852216196 
0 | 11293 41.9754457649 
0 | 22193 42.8440615614 
0 | 36138 42.8565376605 


[5 行 x4 列 ] 





8-38 


现在 ， 我 们 加 载 结果 。 
graphlab .image analysis.resize(spirit animal['image'] [0:1], 96,96) .show () 


这 将 产生 图 8-39 的 输出 。 
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SArray 中 的 一 张 照片 





图 8-39 


我 觉得 还 行 。 我 认为 目 己 戴 的 帽子 次 定 了 一 切 ， 但 我 一 定 会 接 有 党 它 作 为 我 的 灵 兽 。 














8.6 小结 


通过 本 章 ， 我 们 在 计算 机 视觉 应 用 的 机 带 学 习 领 域 中 进行 了 一 次 宏伟 的 旅程 。 我 们 讨 
论 了 一 些 这 个 领域 使 用 的 技术 ， 以 及 如 何 使 用 这 些 拉 术 创建 可 行 的 应 用 。 我 们 还 阐述 了 深 
度 学 习 的 原理 ， 以 及 如 何 将 其 应 用 于 特征 提取 和 分 类 。 最 和 章 要 的 是 ， 你 现在 有 一 个 非 第 科 
学 的 方法 来 寻找 你 的 灵 兽 。 仅 仅 这 一 点 就 值 回 票 价 了 。 


在 下 一 章 中 ， 我 们 将 了 解 如 何 创建 一 个 聊天 机 硕 人 的 应 用 程序 。 
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打造 聊天 机 弯 人 





几乎 从 电脑 诞生 的 那天 开始 ， 我 们 惑 弥 想 有 天 一 日 能 够 与 它们 交谈 。 电 影 告 诉 大 家 ， 
这 些 机 规 将 是 拥有 超 高 智能 的 代理 。 除 了 能 够 进行 对 话 ， 这 些 机 喜人 还 能 观察 我 们 的 情结， 
其 至 在 必要 的 时 候 违 抗 我 们 的 命令， 束 像 在 电影 《2001: 太空 奥 德 豆 》 中 那样 。 


在 电影 问世 11 年 之 后 ， 随 着 iPhone 4S 的 发 布鞋 果 公司 同 全 世界 介绍 了 Siri。 对 于 任 
何 使 用 过 Siri 的 人 来 说 很 显然 的 事实 是 ， 如 果 我 们 想 面 对 电影 中 HAL 9000 单位 所 展示 的 
那 般 智能 ， 那 么 还 有 很 漫长 的 路 要 走 。 但 是 ， 尽 管 这 些 代理 一 一 或 聊天 机 器 人 一 一 过 去 表 
现 尝 拙 ， 访 领域 仍然 在 迅速 友 展 。 


在 本 章 中 ， 我 们 将 学 习 如 何 从 头 打造 一 个 聊天 机 硕 人 。 一 路 走 来 ， 我 们 将 了 解 更 多 天 
于 该 领域 的 历史 及 其 未 来 前 景 。 


我 们 将 在 本 章 讨 论 以 下 主题 。 
e。 图 灵 训 试 。 

。 聊 天 机 堪 人 的 历史 。 

。 聊 天 机 夫人 的 设计 。 

e 创 建 一 个 聊天 机 规 人 。 





























9.1 图 过 测试 





1950 年 ，Alan Turing 在 一 篇 车 名 的 论文 中 提出 了 这 样 的 问题 :“ 机 器 能 思考 吗 ?”” 作 
为 脚踏实地 的 天 才 ， 他 决定 不 去 正面 地 回答 这 个 问题 ， 而 是 将 其 放 入 “其 他 人 头脑 之 问题 ” 
的 框架 中 。 这 个 问题 提出 了 男 一 个 疑问 :“ 我 们 如 何 真正 知道 其 他 人 是 否 拥 有 和 我 们 一 样 的 
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头脑 ? ”因为 我 们 只 能 观察 他 们 的 行为 一 一 而 不 是 他 们 内 心 的 活动 ， 我 们 必须 相信 他 们 像 
我 们 一 样 。Turing 提出 ， 如 果 机 器 表现 出 它 好 像 是 智能 的 ， 那 么 其 实 我 们 也 应 该 这 样 看 。 
简 而 言 之 ， 这 是 图 灵 测 试 。 如 果 机 器 通过 了 这 个 测试 ， 那 束 意 味 看 我 们 要 相信 该 机 器 是 和 
目 己 一 样 的 同类 人 。 

你 可 能 想 知 道 目前 为 止 ， 是 人 否 有 程序 曾经 成 功 地 通过 网 元 测试 。 答 案 是 ， 真 的 没有 官 
方 图 灵 测 试 。 最 接近 官方 活动 的 事情 是 Loebner 奖 。 这 是 一 个 每 年 举行 的 比赛 ， 对 评委 觉 
得 最 像 人 类 的 聊天 机 器 人 ， 颁 发 适度 的 奖励 。 如 果 这 上 听 起 来 过 于 严格 和 学 术 ， 它 可 以 被 描 
述 为 任何 事物 。 据 说 ，Loebner 赞助 比赛 是 因为 他 可 视 任 何 形式 的 劳动 。 

布 望 目前 为 止 ， 你 已 经 意识 到 任何 关于 “通过 图 灵 测 试 ” 的 声明 更 多 的 是 假 依 ， 而 不 
是 实际 的 科学 。 尽 管 如 此 ， 图 灵 的 初始 概念 是 非常 有 价值 的 。 


9.2 聊天 机 怖 入 的 历史 












































我 还 记得 那天 父 杀 让 我 坐 在 他 的 IBM XT 和 面前， 看 着 它 黑色 和 绿色 闪烁 的 监视 莫 ， 并 
让 我 和 “ 它 ” 说 话 。 对 话 大 臻 是 这 样 的 : 
>Hello? How are you feeling today? 


>Hi. Who is this? 


>Hi there.. how are you today? 





>I'm fine. You didn't tell me who you are. 

>We should be discussing you, not me. 

>We should? Why? 

>Let's change focus a bit. Tell me about your family. 
>You are impossible to have a conversation with. 
>Can you elaborate on that? 

>You are killing me. 

>Perhaps you would like me to be killing you. 
>Ok, you are freaking me out. 

>Perhaps you're really talking about yourself? 
>What?? That makes no Sense . 

>How would an answer to that help you? 

>END 

>Very Interesting. 

>QUIT 

>Thank you for talking with me. 

>#$### 人 $#@@ . . . 
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和 我 交谈 的 “ 它 ” 是 一 个 名 为 ELIZA 的 程序 。 由 Joseph Weizenbaum 了 于 20 世纪 60 年 代 
中 期 ， 在 麻 省 理工 学 院 人 工 智能 实验 室 编写 。 他 创建 ELIZA 来 模仿 罗杰斯 心理 治疗 师 “ 的 
反应 。 虽 然 无 论 从 何 种 层面 来 理解 ， 这 些 反 应 都 是 很 滑稽 的 ， 但 是 该 程序 能 够 说 服 一 些 用 
尸 ， 让 他 们 觉得 正在 和 一 个 真实 的 人 人 聊天。 考虑 到 它 的 代码 不 足 200 行 ， 并 使 用 随机 化 和 
正则 表达 式 进 行 婴 囊 学 舌 般 的 应 和 谷 ， 这 已 经 是 一 个 了 不 起 的 壮举 了 。 即 使 在 今天 ， 这 个 简 
单 的 程序 仍然 是 主流 的 做 法 。 如 果 你 问 Siri ELIZA 是 谁 , 她 会 告诉 你 她 是 一 位 好 朋友 以 及 出 
色 的 心理 医生 。 


如 果 说 ELIZA 是 聊天 机 需 人 的 和 骏 形 ， 之 后 我 们 又 看 到 了 什么 ? 最 近 这 些 年 ， 新 型 的 聊 
天 机 器 仓 发 式 地 增长 ， 最 值得 注意 的 是 Cleverbot。 

Cleverbot 于 1997 年 在 互联 网 上 问世 。 从 那 时 起 ， 这 个 机 器 人 己 经 进行 了 数 亿 次 的 对 
话 。 不 像 早 期 的 聊天 机 右 人 ， 随 着 每 次 对 话 的 进行 ，Cleverbot( 机 如 其 名 〉 似乎 变 得 更 加 
智能 。 对 于 该 算法 确切 的 工作 原理 ， 相 关 细 节 很 难 找到 ， 气 说 是 将 所 有 的 对 话 记 录 到 数据 
库 中 ， 并 通过 识别 数据 库 中 最 类 似 的 问题 和 回应 ， 来 找到 最 合适 的 答复 。 

我 在 图 9-1 所 示 的 屏 医 截 图 中 ， 提 出 了 一 个 无 意义 的 问题 ， 你 可 以 看 到 Cleverbot 根据 
字符 串 的 匹配 ， 发 现 了 和 这 个 问题 中 所 讨论 对 象 相 类 似 的 事物 。 


Cleverbot 


Do you like nashnash? 




















NASCAR is for rednecks. 和 sharel 


say to cleverbot... 三 


think about it think for me thoughts so far 





我 继续 相关 的 话题 ， 如 图 9-2 所 示 。 

我 再 一 次 得 到 相似 的 答复 。 

你 还 会 注意 到 ， 话 题 可 以 在 多 个 会 话 中 持续 。 对 于 我 的 回答 ， 它 要 求 我 提供 更 多 的 细 
节 ， 并 证 明 我 的 答案 是 合理 的 。 看 上 去 ， 这 是 使 Cleverbot 更 聪明 的 方法 之 一 。 








Bd 


(D 译 者 注 : 罗杰斯 ， 著 名 的 心理 学 家 ， 罗 氏 心 理 治疗 法 的 创始 人 。 
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Cleverbot 


No. 
Why not? 
I like nashnash. 


What are nawks? 和 share! 


bay to cleverbot... 三 


think about it think for me thoughts so far 





9-2 

虽然 聊天 机 器 人 学 习 人 类 可 能 很 有 趣 ， 但 它们 也 有 黑暗 面 。 

就 在 这 一 年 ， 人 微软 在 Twitter 上 发 布 了 一 个 名 为 Tay 的 聊天 机 右 人 。 短 软 邀 请 人 们 问 
Tay 提出 问题 ，Tay 会 根据 她 的 “个 性 ”做 出 回应 。 有 显然， 微软 对 这 个 机 絮 人 进行 了 特定 的 
编程 ， 让 其 看 上 去 像 一 个 19 岁 的 美国 女孩 。 她 希望 成 为 你 的 虚拟 “好 友 ”， 唯一 的 问题 是 
她 听 上 去 像 一 个 年 轻 的 极端 主义 者 。 

由 于 一 系列 令 人 难以 置信 的 烛 动 性 推 文 ， 微 软 被 迫 在 Twitter 上 关闭 了 Tay， 并 发 布道 多 : 

“现在 很 多 人 都 知道 , 星期 三 我 们 推出 了 一 款 名 为 Tay 的 聊天 机 器 人 。 对 于 Tay 意外 发 
布 的 攻击 性 和 伤害 性 的 推 文 ， 我们 非常 抱歉 ， 这 并 不 代表 我 们 的 立场 或 者 我 们 支持 谁 。 现 
在 Tay 已 经 下 线 ， 对 于 和 我 们 的 原则 以 及 价值 观 相 冲突 的 恶意 内 容 ， 需 要 及 时 地 预测 ， 只 
有 当 我 们 有 信心 可 以 更 好 地 预测 时 ， 才 会 让 Tay 再 次 回归 。” 

一 一 2016 年 3 月 25 日 微软 官方 博客 

显然 ， 想 要 在 未 来 对 公众 发 布 聊 天 机 吉 人 的 品牌 ， 应 该 从 这 次 事件 中 吸取 教训 。 

毫 无 疑问 ， 品 牌 商 们 正在 接受 聊天 机 器 人 。 从 Facebook 到 Taco Bell* 都 在 进入 这 个 领 
域 。 

来 看 看 TacoBot， 如 图 9-3 所 示 。 

















QD 译 者 注 : 美国 非常 知名 的 连锁 餐饮 品牌 。 
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i tacobot 
I Ordersetforlaunch! 一 局 多 


Please confirm the final total: $2.39 which includes all applicable taxes. You will pickup the 
goods at 12105 W Pico Blvd. Ifthat sounds right, tell me to place the order!!! 


, human 
| like you 
tacobot 
| don't have emotions but... | like you too | guess. 


human 
What came first, the chicken or the egg? 


tacobot 

That's easy. You can't have a chicken unless it hatches from and egg so... But wait, hang on a sec... 
you can't have an egg unless it's laid by a.... ERROR ERROR LOGICAL PARADOX... REBOOTING.... 
Woah, sorry about that. All | know for sure is that both of them taste good when you wrap em ina 
tortilla. 





图 9-3 
是 的 ， 这 是 一 个 真实 的 例子 ， 尽 管 发 生 了 Tay 那样 的 事件 ， 未 来 的 UI 还 是 很 有 可 能 成 
为 TacoBot 这 样 的 东西 。 最 后 一 个 例子 可 能 进一步 解释 这 是 为 什么 。 
Quartz 最 近 推 出 了 一 个 将 新 闻 转 变 为 对 话 的 应 用 程序 。 在 聊天 中 你 的 代入 感 更 好 ， 就 
像 倾听 一 个 朋友 述说 新 闻 ， 而 不 是 让 系统 简单 地 排出 故事 列表 。 如 图 9-4 所 示 。 


David Gasca，Twitter 的 产品 经 理 ， 在 Medium 的 一 篇 文章 中 描述 了 他 使 用 该 应 用 的 经 
历 。 他 摘 述 了 会 话 的 本 质 如 何 触发 了 只 有 人 与 人 之 间 才 有 的 那 种 感觉 。 下 面 的 内 容 是 有 关 
他 在 这 个 应 用 中 允 到 广告 时 的 感觉 

“与 简单 的 展示 广告 不 同 ， 和 我 的 应 用 对 话 时 ， 我 觉得 欠 它 些 什 么 : 我 就 想 单 击 。 在 
潜意识 的 层次 ， 我 党 得 需要 互动 ， 不 能 让 应 用 程序 失望 : 因为 应 用 程序 给 了 我 这 些 内 容 。 
到 目前 为 止 它 都 很 棒 ， 我 也 喜欢 GIF 的 动 图 。 我 也 许 应 该 单 击 这 个 广告 ， 因 为 应 用 程序 正 
在 很 耐心 地 询问 我 。” 

如 果 这 种 体验 是 普 表 的 一 -我 也 期 望 它 是 一 一 那么 这 可 能 是 广告 界 的 一 件 大 事 , 军 无 疑 
问 ， 广 告 的 利润 将 推动 UI 的 设计 : 

“机 器 人 的 行为 越 像 一 个 真实 的 人 ， 它 就 会 越 像 真人 一 样 被 对 待 。” 

一 一 Mat Webb， 技 术 专 家 , 《Mind Hacks》 一 书 的 合 著者 


到 目前 为 止 ， 你 可 能 很 想 知 道 这 些 东 西 是 如 何 运 作 的 ， 所 以 让 我 们 继续 吧 ! 
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4Back to App Store 8:13 PM 


Open the app whenever you want, and we'll 
give you the most important and interesting 
news from around the global economy. 


We can also send you notifications. They're fun, 
customizable, and won't even buzz your phone 
most of the time. ls that OK? 


由 


Great. You'll get a pop-up asking for 
permission. 


Thanks. 全 You can customize your experience 
by going to settings, located to the left. Swipe 
over there any time. 


Are you ready to get started? 


Alright, let's get you the latest news... 


It's a grim day at the Preakness Stakes 一 and 
not just because of rainy weather. Two 
horses died after their races around the 
Pimlico tracks. 


CA anything else? 


到 9-4 





9.3 聊天 机 怖 入 的 设计 


初始 的 ELIZA 应 用 程序 是 200 行 出 头 的 代码 。Python NLTK 的 实现 也 是 差不多 的 短小 
精 悍 。 在 NLTK 网 站 的 这 个 链接 (nttp://www.nltk.org/modules/nltk/chat/ 
eliza.html)， 可 以 看 到 一 些 摘要 。 这 里 我 也 转载 了 以 下 内 容 。 


Natural Language Toolkit: Eli2Za 


COPY (CC 2001=20160 NLTKE ProTeet 
Authors: Steven Bird <stevenbirdl@gmail.com> 
Edward Loper <edloper@gmail.com> 

URLY ht oo i ek Oro 

For license information, See LICENSE.TXT 


Based on an Eliza implementation by yoeée Strout 


沐 洒洒 洒洒 洒洒 站 
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<jJoe@strout.net>, 

# Jeff Epler <jepler@inetnebr.com> and Jez Higgins 
<mailto:jezZ@jezZuk.co.uk>. 

# a translation table used to convert things you say into 


things the 
# computer says back, e.g. "I am --> "you are" 
from future import print function 


from nltk.chat.util import Chat, reflections 
# a table of response pairs, where each pair consists of a 
# regular expression, and a list of possible responses, 
2 with grou=-macros Label led as Tl 32., 
pairs = ((r'I need (.*)',("'Why do you need %1?", "Would it 
really help you to get %1?","Are you sure you need 
$1?")),(r'Why don't you (.*) '， 
("Do you really think I don't %1?","Perhaps eventually 


I will %1.","Do you really want me to $1?")), 
[snip] (r'(.*)\?', ("Why do you ask that?", "Please consider 


whether you can answer your own question.", 
"Perhaps the answer lies within yourself?", 
"Why don't you tell me?")), 
(r'quit', ("Thank You for talking with me.","Good-bye.", 
"Thank you, that will be $150. Have a good day!'")), 


(r'(.*)', ("Please tell me more.",'"Let's change focus a bit... 
Tell me about your family.","Can you elaborate on 
that?","Why do you Say that $1?","I See."， 

"Very interesting.","%1.",'"I see. And what does that 


tell you?","How does that make you feel?", 

"How do you feel when you say that?")) 

) 

eliza chatbot = Chat (pairs, reflections) 

def eliza chat(): 

print ("Therapist\n---------— ") 

print("Talk to the program by typing in plain English, 

using normal upper-") 

print('and lower-case letters and punctuation. Enter "quit" 
when done.') 

print('="'*72) 

print ("Hello. How are you feeling today?") 

eliza chatbot.converse() 

def aemo () : 

eliza chat() 

If name == " main ": 


demo () 


从 这 段 代 码 中 可 以 看 出 ， 它 解析 了 输入 的 文本 ， 然 后 将 其 与 一 系列 的 正则 表达 式 进行 


wNv albbt.com DODODDDDD 





214 第 9 章 打 造 聊天 机 器 人 


匹配 。 一 旦 输入 匹配 成 功 ， 就 会 返回 一 个 随机 的 答复 〈 有 时 回应 也 会 市 上 输入 的 一 部 分 )。 
所 以 ， 像 “I need a taco” 这 样 的 问题 有 时 会 触及 “Would it really help you 
to Ot tae? 这 样 的 回答 。 显 然 ， 答 守 是 肯定 的 ， 而 且 圣 运 的 是 ， 现 在 这 个 时 代 的 
技术 已 经 可 以 为 你 提供 这 项 服务 了 “祝福 你 ，TacoBot)， 当 然 还 是 在 早期 发 展 阶段 。 令 人 
震惊 的 是 ， 有 些 人 确实 相信 ELIZA 是 一 个 真实 的 人 。 


但 是 ， 更 先进 的 机 占 人 又 怎样 呢 ? 它们 是 如 何 构建 的 ? 


令 人 惊讶 的 是 ， 你 过 到 的 大 多 数 聊 天 机 器 人 并 没有 使 用 机 器 学 习 的 技术 ， 他 们 使 用 的 
征 所 谓 的 基于 检索 的 模型 。 这 意味 肴 答复 是 根据 问题 和 上 下 文 而 预定 义 好 的 。 这 些 机 医 人 
最 常见 的 架构 是 被 称 为 人 工 智能 标记 语言 (AIML) 的 东西 。AIML 是 一 种 基于 XML 的 模 
式 ， 它 表示 机 絮 人 应 该 如 何 与 用 户 的 输入 进行 交互 。 它 只 是 一 个 更 高 级 版 本 的 ELIZA。 

让 我 们 来 看 看 如 何 使 用 AIML 来 生成 答复 。 首 先 ， 预 处 理 所 有 的 输入 以 使 其 标准 化 。 
这 意味 看 当 你 输入 “Waaazzup ?3?” 时 ， 它 被 映 味 到 “WHAT IS UP”。 这 个 预 处 理 步 又 通 
过 多 种 方式 ， 将 针对 同样 事物 的 不 同 次 法 变 成 一 个 输入 ， 这 样 就 可 以 在 输入 上 运行 单个 规 
则 。 标 点 符号 等 在 这 个 阶段 也 被 去 除了 。 一 旦 完成 ， 输 入 束 匹 配 上 了 对 应 的 规则 。 以 下 是 
模板 的 示例 。 

<category> 

<pattern>WHAT IS UP</pattern> 


<template>The sky, duh. Pfft. Humans...</template> 
</category> 


这 是 基本 的 设置 ， 你 也 可 以 使 用 通配符 、 随 机 化 和 优先 级 模式 。 例 如 ， 以 下 柑 式 使 用 
了 通配符 匹配 。 

<category> 

<pattern>* FOR ME<pattern> 


<template>I'm a bot. I don't <star/>. Ever.</template> 
</category> 


这 里 ，*# 通 配 符 匹 配 了 FOR ME 之 前 的 一 个 或 多 个 单词 ， 然 后 在 返回 的 输出 模板 中 重复 这 
些 内 容 。 如 果 用 户 输入 “Dance for me12” 回复 就 是 “I'ma pbot. Idon't dance. Ever.”。 

正如 你 所 见 ， 这 些 规则 并 没有 产生 任何 接近 于 真实 和 贸 力 的 东西 ， 但 有 一 些 技巧 让 人 们 
产生 了 幻觉 。 一 个 更 棒 的 能 力 是 根据 话题 的 内 容 ， 产 生 相 应 的 答复 。 

例如 ， 以 下 是 找到 话题 的 规则 。 


<category> 
Dattern>1I, LIKE TURTEESK/Dattern> 
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<template>I feel like this whole <set name="topic">turle</set> 
thing could be a problem. What do you like about them? 

</template> 

</category> 


一 且 设 置 了 话题 ， 那 么 吏 可 以 匹配 上 特定 于 该 上 下 文 的 规则 。 


<topic name="turtles"> 





<category> 

<Dattern>* SHELL To */Dattern> 

<template>I dislike turtles primarily because of their shells. 
What other creepy things do you like about turtles? 

</template> 

</category> 


<category> 

atterriy>* TIDE “7pattern> 

<template>I wish like a turtle that I could hide from this conversation. 
</template> 

</category> 


< EOLGS 
让 我 们 看 看 这 个 交互 大 致 是 什么 样子 的 。 


>I like turtles! 

>I feel like this whole turtle thing could be a problem. What do you like 
about them? 

>I like how they hide in their shell 

>I wish like a turtle I could hide from this conversation. 


你 可 以 看 到 ， 谈 话 的 连续 性 增强 了 现实 感 。 


你 可 能 认为 在 深度 学 习 的 时 代 ， 这 不 是 最 先进 的 技术 ， 你 是 对 的 。 虽 然 大 多 数 机 堪 人 
邦 是 基于 规则 的 ， 但 下 一 代 的 聊天 机 各 人 正在 浮现 ， 它 们 古 基 于 神经 网 络 的 。 


2015 年 ， Google 的 Oriol Vinyas 和 Quoc Le 发 表 了 一 篇 论文 
(nttps://arxiv.org/pdf/1506.05869v1.pdf), 描述 了 基于 序列 到 序列 模型 的 神经 
网 络 构 造 。 这 种 类 型 的 模型 将 输入 序列 ， 例 如 “ABC”， 映射 到 诸如 “XYZ” 的 输出 序列 。 
这 些 输入 和 输出 可 以 是 从 一 种 语言 到 另 一 种 语言 的 翻译 。 然 而 ， 在 他 们 的 工作 案例 中 ， 训 
练 数据 不 再 是 语言 翻译 ， 而 是 技术 文 持 的 对 话 脚本 和 电影 中 的 对 白 。 虽 然 这 两 个 模型 的 结 
果 都 很 有 趣 ， 但 基于 电影 对 白 模 型 的 互动 却 更 加 引 人 和 人 注目 。 


图 9-5 是 从 论文 中 截取 的 交互 样 例 。 




















ww ai bbt.com DODODDDDD 





216 第 9 章 打 造 聊天 机 器 人 


Human: who is skywalker ? 
Machine: he zs a hero. 
Human: who is bill clinton ? 
Machine: he sa billionaire. 
Human: is sky blue or black ? 
Machine: blue. 

Human: does a cat have a tail ? 


Machine: yes. 

Human: does a cat have a wing ? 
Machine: no 

Human: can a cat fly ? 

Machine: no. 

Human: how many legs does a cat have ? 
Machine: four , i think. 


9-5 


这 些 都 不 是 由 人 类 显 式 编 码 的 或 存在 于 训练 集中 ， 然 而 ， 看 着 这 些 就 像 和 真人 交谈 ， 
` 茶 让 人 有 扩 奶 惧 。 让 我 们 看 看 更 多 的 内 容 ， 如 图 9-6 所 未 。 








Human: what do you think about tesla ? 
Machine: he 's a good conductor. 

Human: what do you think about bill gates ? 
Machine: he sa good man. 

Human: What do you think about messi ? 
Machine: he 's a ereat player. 

Human: what do you think about cleopatra ? 
Machine: oh, she 's very regal. 

Human: what do you think about england dur- 
ing the reign of elizabeth ? 

Machine: it was a great place. 





图 9-6 


注意 ， 模 型 回答 时 似乎 考虑 了 性 别 〈 人 他， 她)、 地 理 ( 身 格 兰 ) 和 职业 球员)。 即 使 
征 有 关 意 义 、 伦 理 和 道德 的 问题 ， 表 现 得 也 不 错 ， 如 图 9-7 所 示 。 


Human: what is the purpose of life ? 
Machine: to serve the greater good . 


Human: what is the purpose of living ? 
Machine: to live forever. 





图 9-7 


会 话 还 在 继续 ， 如 图 9-8 所 示 。 
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Human: okay , i need to know how should i be- 
have morally... 

Machine: i don ‘t know how to tell you. 
Human: is morality and ethics the same ? 
Machine: yes , sir. 

Human: what are the things that i do to be im- 


moral ? 

Machine: i don ‘t know. 

Human: give me some examples of moral ac- 
fions ... 

Machine: i 'm not a moralist. 

Human: alright, morality ? 

Machine: inteerity. 





9-8 
如 果 这 个 对 话 脚本 没有 让 你 对 未 来 产生 轻微 的 仆 惧 感 ， 那 么 你 可 能 已 经 是 某 种 形式 的 
人 工 入 能 产物 了 。 
我 真心 推荐 你 阅读 整 篇 论文 。 它 写 得 不 是 过 于 技术 人 化， 而且 肯 定 能 让 你 了 解 这 项 技术 
目前 发 展 的 进度 。 
我 们 谈 了 很 多 关于 聊天 机 器 人 的 历史 、 类 型 和 设计 ， 现 在 让 我 们 继续 ， 创 建 一 个 属于 
目 己 的 机 器 人 吧 ! 


9.4 打造 一 个 聊天 机 器 

















现在 ， 了 解 了 聊天 机 器 人 有 哪些 可 能 性 ， 你 很 可 能 想 打造 一 个 最 好 的 、 最 先进 的 、Google 
级 别 的 机 器 人 ， 对 吧 ? 好 吧 ， 现 在 不 要 想 着 那些 了 ， 因 为 我 们 会 做 相反 的 事情 ! 我 们 将 建 
立 史上 最 糟糕 的 机 器 人 ! 

让 我 告诉 你 为 什么 。 要 创建 一 个 与 Google 所 造 的 机 器 人 相 娘 美的 聊天 机 器 人 ,需要 大 
量 的 硬件 和 时 间 。 在 你 的 MacBook Pro 上 ， 无 论 使 用 何 种 真实 训练 集 进行 学 习 ， 模 型 通常 
都 要 耗费 一 个 月 或 两 个 月 的 时 间 ， 你 是 无 法 速成 它 的 。 这 意味 着 你 不 得 不 在 Amazon 的 AWS 
上 租用 一 些 时 间 ， 而 且 也 不 是 随 随便 便 什么 机 器 都 能 满足 需求 的 。 这 类 机 器 需要 有 一 些 强 
力 的 性 能 规格 ， 最 好 是 GPU。 尝 试 这 些 当然 是 好 事情 。 但 是 ， 如 果 你 的 目标 只 是 建立 一 些 
酷 炫 、 吸 引 人 的 东西 ， 那 么 下 面 的 内 容 就 可 以 帮助 到 你 。 


我 也 应 该 提前 警告 你 ， 虽 然 Cleverbot 不 是 微软 的 Tay， 但 对 话 的 口味 可 能 还 是 会 有 点 
重 。 如 果 你 很 容易 被 冒犯 ， 那 你 可 能 需要 另 一 个 不 同 的 训练 集 。 


好 ， 让 我 们 开始 吧 ! 
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首先 ， 和 往常 一 样 ， 我 们 需要 训练 数据 。 一 如 既往 ， 这 是 整个 过 程 中 最 具 挑 战 性 的 一 
步 。 圣 运 的 是 ， 我 找到 了 一 个 超 先 的 会 话 数据 库 。 网 站 notsocleverbot.com 让 人 们 提交 他 们 
与 Cleverbot 之 间 最 靶 请 的 对 话 。 有 了 这 个 训练 集 ， 夫 复 何 求 ? 


让 我 们 来 看 看 Cleverbot 和 该 站 点 用 户 之 则 的 对 话 示 例 ， 如 图 9-9 所 示 。 


User: *lightsaber battle*. 
Cleverbot: Luke I am your father. 
User: *swings with lightsaber*. 
Cleverbot: *Blocks* *Swings lightsaber*. 
User: *blocks stabs with lightsaber*. 
Cleverbot: *pushes back with the force*. 
User: *pulls out gun*. 
Cleverbot: *Pulls out nuke*. 
User: *pulls out chuck norris*. 
Cleverbot: *pulls out God*. 
User: *pulls out universe*. 
: *pulls out his mom*, 


: *curls up and cries*. 
User: *cuddles and cries*. 
Cleverbot: *kisses neck softly*. 
User: *cries more*. 
Cleverbot: *kisses tears more*. 
User: *cries even more*., 

: *Whispers* It's ok. 





图 9-9 


所 以 ， 我 们 将 从 这 里 开始 。 首 先 ， 我 们 需要 从 这 个 网 站 下 载 对 话 脚本 。 为 此 ， 我 们 将 
使 用 和 第 2 章 相同 的 工具 import .io， 如 图 9-10 所 示 。 


import .io Product Pricing Partners Blog Help Contact sales Login or 


Extract web data 


the easy way 


http://www.notsocleverbot.com/index. 


How it works See some examples 





图 9-10 
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你 只 需 将 链接 粘贴 到 页 面 上 的 表单 中 即 可 。 输 入 的 格式 就 像 这 样 : 


ER WwW notsocleverbot ,com/index. php?pade=]s 
一 旦 提交 ， 网 站 import .io 就 将 处 理 请 求 并 返回 一 个 页 面 ， 束 像 图 9-11 这 样 。 


import.io 


Add or manage URLs 


© Give feedback Help Dashboard 
Create a blank table D Undo C Redo Data view Website view 


User: *walking*.. 


User: *Facepal... 


Cleverbot: Well... 


Cleverbot: *my .… 


Cleverbot: He 川 ... 


Cleverbot: Give.. 


User: I"'m comm.. 


Posted: 2016-0... 


Posted: 2016-0... 


Posted: 2016-0... 


Posted: 2016-0... 


Posted: 2016-0... 


Posted: 2016-0... 


Posted: 2016-0... 





21 Comment 
Comment 
Comment 
Comment 
Comment 
Comment 


+ 1 more items 


Comment 


图 9-11 


如 果 从 这 里 看 一 切 正常 ， 请 单 击 右上 角 附近 的 粉色 “Done” 按 钮 。 
网 站 import .io 将 处 理 该 页 面 ， 然 后 将 带 你 到 图 9-12 这 样 的 界面 。 


import.io 


New Extractor 


Q Search for an Extractor 


www.notsocleverbot.com 


www.notsocleverbot.com 


Free plan 


Resets on 21st June 


Upgrade 





Pricing Help My account ~ 


MATA A lel tsele [S/o 人 Run URLs 


® History 让 Integrate 


Running your new Extractor for the first time 


CSV will be available for download shortly... 


Download CSV See run history 





Configure URLs 


Configure your Extractor to run with multiple URLs from a website. Use the URL Generator to help build the list based on the URLs parameters, or if you 
already have a list of URLs you can paste them in below. 


A Show URL Generator 


Add URLs: 1 
http://www.notsocleverbot.com/index.php?page=1 


图 9-12 
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接 下 来 ， 单 击 中 间 的 Show URL Generator 按钮 ， 如 图 9-13 所 示 。 


import.io © Give feedback ”Help ~ 


Add or manage URLs Create a blank table 9 Undo C Redo Download CSV Data view Website view 


号 15 mm 己 ey 


User: This is to .. Posted: 2016-0.，16 Comment 
Cleverbot: Do y.. Posted: 2016-0.. on 7 Comment 


Cleverbot: You ... Posted: 2016-0.. 0 Comment 


由 


Add column 


User: *walking*.. Posted: 2016-0.. Comment 


User: *Facepalm， Posted: 2016-0.. Comment 


Cleverbot: Well,. Posted: 2016-0., Comment 


Cleverbot: *my .. Posted: 2016-0.. Comment 





图 9-13 

接 下 来 ， 你 可 以 设置 要 下 载 的 数字 范围 。 例 如 ，1 一 20， 每 次 1 个。 显然 ， 你 抓 取 的 页 
面 越 多 ， 这 个 模型 就 会 越 好 。 但 是 ， 请 记 住 ， 你 的 请 求 会 对 服务 器 造成 压力 ， 所 以 使 用 时 
请 体贴 一 些 0， 

完成 后 ， 单 击 Add to List 并 在 文本 框 中 单 击 Return， 然 后 你 应 该 能 够 单 击 Save。 它 将 
开始 运行 ， 完 成 之 后 ， 你 可 以 将 数据 下 载 为 CSV 文件 。 

接 下 来 ， 我 们 将 使 用 Jupyter 记事 本 来 检查 和 处 理 数据 。 首 先导 入 pandas 和 Python 正则 
表达 式 的 库 re。 我 们 还 要 设置 pandas 的 选项 来 加 宽 列 ， 以 便 我 们 可 以 更 好 地 看 清 数 气 。 


import pandas as Pd 








import re 


pd.set option('display.max colwidth' ,200) 
现在 ， 我 们 将 加 载 数据 。 


df = pd.read csv('/Users/alexcombs/Downloads/nscb.csyv') 
df 


上 述 代码 生成 图 9-14 所 示 的 输出 。 








QD 译 者 注 : 作者 的 意思 是 ， 不 要 在 短 时 间 内 抓 取 大 量 网 页 ， 否 则 会 对 www.notsocleverbot.com 产生 过 大 的 流量 压 
pa 
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Ti 
国 Postinner link Postinner link_link wi Image 1 
value 


User: *walking*\nCleverbot: *looks 
at you and winks* ;)\nUser: O.O 
*walks faster*\nCleverbot: 
*catches up with you and pins you 
against a wallAnUser: *eyes 
widen* W-What do you want? 
\nCleverbot: ... 


Posted: 
http://www.notsocleverbot.com/index.php? | 2016- 
i=48277 04-18 

04:30:53 


http://www.notsocleverbot.com/images/thumbs_ 


User: *Facepalm* You are so 
stupid, you know that, right? 
\nCleverbot: | cannot argue with 
you.\nUser: So you admit your 
idiocy.\nCleverbot: You're all and | 
am nothing.\nUser: 


Posted: 
http://www.notsocleverbot.com/index.php? | 2016- 
i=48275 04-16 

22:39:34 


32 http://www.notsocleverbot.com/images/thumbs_ 





4 9-14 


由 于 我 们 只 对 第 一 列 的 对 话 数据 感 兴趣 ， 将 其 拆 解 出 来 。 


Convo = df.iloc[:,0] 


< 


上 述 代 码 生 成 图 9-15 所 示 的 输出 。 


0 User: *walking*\nCleverbot: *]looks at you and winks* ;)\nUser: 0.0 *walks faster*\nCleverbot: *catches up wi 
th you and pins you against a wall*\nUser: *eyes widen* W-What do you want?\nCleverbot: ... 

I User: *Facepalm* You are so stupid, you know that, right?\nCleverbot: I cannot argue with you.\nUser: So you 
admit your idiocy.\nCleverbot: You're all and I am nothing.\nUser: Yess!!!\nCleverbot: ... 

2 Cleverbot: Well, my wife left 
me today.\nUser: Feels bad for you.\nCleverbot: Not really, I have an amazing boyfriend :). 

3 Cleverbot: *my dragongirl chest fills with dragon milk*.\nUser: WHAT THE ACTUAL FUC 


4 Cleverbot: He'll have to sit and watch them al 
l.\nUser: What the frick are you talking about.\nCleverbot: Something more pleasant than you! 

5 Cleverbot: Give me a riddle.\nUser: What has a head but no body . has a bed but never sleeps . runs but neve 
r walks.\nCleverbot: What? I don't know.\nUser: A river.\nCleverbot: A river is not a fl... 

6 User: I"m commander shepard.\nCleverbot: Really?\nUser: Yupp.\nCleverbot: That's nice. Can I meet your frien 
d?\nUser: Garrus or Tali.\nCleverbot: Garrus because he is more impressive.\nUser: Okay ... 





图 9-15 


从 图 9-15,， 我 们 可 以 看 到 用 户 和 Cleverbot 之 间 的 交互 ， 以 及 对 话 的 启动 。 为 了 获取 我 
们 所 需 的 格式 ， 需 要 将 数据 解析 成 问题 和 答复 的 配对 。 我 们 不 一 定 关 心 谁 说 了 什么 ， 但 我 
们 关心 将 每 个 答复 和 问题 对 应 起 来 。 稍 后 我 们 将 理解 这 是 为 什么 。 现 在 让 我 们 在 文本 上 执 
有 和 王 芋 玫 则 才 达 直 ， 
clist = [] 
def qa pairs (x): 
cpairs = re.findall(": (.*?) (?:$|\n)", x) 
clist.extend (list(zip (cpairs, cpairs[1:]))) 
convo.map (qa pairs); 


convo frame = pd.Series (dict(clist)) .to frame() .reset index () 
convo frame.columns = ['q', 'a'] 


上 述 代码 将 产生 图 9-16 所 示 的 输出 。 


ww ai bbt.com DODODDDDD 





222 第 9 章 打 造 聊天 机 器 人 


“人 "icant beleieve i spelled now wrong So now you are calling me silly? 


WTF *TAKES OFF SUNGLASSES MOTHER OF 
GOD* 
| am wearing leggings and a leotard, what are you 
"Darling so there you are, with that look on your face". wearing? 


CO hh 司 


rom rap 
mo pe 
moned vor vn omyou om poco oon me ody orinown hatred mo onyon 
a oes 


i | | am not Bill Gates. | am Martin Levenius. But that 
If frown is shown then | will know that you are no dreamer . , hs | 
Was obvious logic, it is tautological. 


图 9-16 
好 吧 ， 这 里 有 很 多 代码 。 刚 刚 发 生 了 什么 ?我 们 首先 创建 了 一 个 列表 来 保存 问题 和 和 丛 
复 的 元 组 。 然 后 我 们 通过 一 个 函数 来 切 分 对 话 ， 使 用 正则 表达 式 将 它们 变 为 匹配 的 对 。 
最 后 ， 我 们 将 列 标记 为 q 和 a， 并 将 所 有 的 数据 放 入 一 个 pandas 的 DataFrame。 
我 们 现在 将 应 用 一 点 算法 的 魔术 ， 为 用 户 的 输入 匹配 最 接近 的 问题 。 


from sklearn.feature extraction.text import TfidfVectorizer 








from sklearn.metrics.pairwise import cosine similarity 
vectorizer = TfidfVectorizer (ngram range= (1,3)) 


vec = vectorizer.fit transform(convo frame['q']) 


我 们 在 上 面 的 代码 中 所 做 的 是 ， 导 入 TfidfVectorization 库 和 余弦 相似 度 的 库 。 
然后 我 们 使 用 训练 数据 来 创建 tt-idf 窍 阵 。 现 在 可 以 使 用 这 个 来 转换 我 们 目 己 的 新 问题， 并 
测量 访问 题 与 训练 集中 现 有 问题 间 的 相似 度 。 


我 们 在 第 $ 章 详细 讨论 了 余弦 相似 度 和 ttidf 算法 ， 
所 以 如 果 你 想 了 解 它们 运作 的 细节 ， 请 参考 第 $ 章 。 





让 我 们 现在 获取 相似 度 分 数 。 


my 9 = vectorizer.transform(['Hi. My name is Alex.']) 
cs = cosine similarity(my q, vec) 

rs = Pd.Series (cs[0]) .sort values (ascending=0) 

top5 = rs.iloc[0:5] 

top5 


上 述 代码 生成 图 9-17 的 输出 。 
我 们 在 这 里 看 什么 ?这 里 列 出 了 和 我 提出 的 问题 最 接近 的 前 五 个 问题 ， 以 及 它们 之 间 
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的 余 弱 相似 度 。 左 边 是 索引 编号， 右边 是 余弦 相似 度 。 让 我 们 来 看 看 这 些 问题 。 
convo frame.iloc[top5.index]['q'] 


这 将 产生 图 9-18 所 示 的 输出 。 














.638891 Ee CT ee 
.537884 i my name is ever ot. 
Okay your name 1s Alex. 
“231038 Hi my name is pat 
“3281335 Hi my name is lune. 
.460475 My name is. 
图 9-17 图 9-18 

我 们 可 以 看 到 ， 没 有 一 个 问题 和 我 的 输入 是 完全 相同 的 ， 但 肯定 有 一 些 相似 之 处 。 

再 来 看 看 答复 。 

rsi = rs.index[0] 

rsi 


convo frame.iloc[rsi]['a'] 

上 述 代码 将 产生 图 9-19 所 示 的 输出 。 

好 吧 ， 我 们 的 机 器 人 似乎 已 经 表明 了 态度 。 让 我 们 再 进一步 。 

我 们 将 创建 一 个 方便 的 函数 ， 这 样 可 以 轻松 地 测试 一 系列 的 语句 。 


def get response(q): 

my 9 = vectorizer.transform([q]) 

cs = cosine similarity(my q, vec,) 

rs = Pd.Series (cs[0]) .sort values (ascending=0) 

rsi = rs.index[0] 

returnconvo frame.iloc[rsi]['a'] 
get response('Yes, I am clearly more clever than you will ever be!') 


这 将 产生 图 9-20 所 示 的 输出 。 


'Are you clever or something.. 
图 9-19 图 9-20 


显然 ， 我 们 创造 了 一 个 怪物 ， 所 以 继续 吧 。 
get response('You are a stupid machine. Why must I prove anything to you?') 


这 将 产生 图 9-21 所 示 的 输出 。 
我 很 享受 这 个 。 让 我 们 继续 前 进 。 


get response('My spirit animal is a menacing cat. What is yours?') 
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及 LIght you are. 





图 9-21 图 9-22 
我 回答 说 : 
get response('I mean I didn't actually name it.') 
这 将 产生 图 9-23 的 输出 。 
继续 : 
get response('Do you have a name Suggestion? ) 


这 将 产生 图 9-24 所 示 的 输出 。 


‘KAHHHHHHHN. Do YOU have a name. 


图 9-23 图 9-24 
我 回答 : 
get response('I think it might be a bit aggressive for a kitten') 
这 将 产生 图 9-25 所 示 的 输出 。 
我 试图 平 居 局 面 : 


get response('No need to involve the police.') 
这 将 产生 图 9-26 所 示 的 输出 。 
图 9-25 图 9-26 


最 后 : 


get response('And I you, Cleverbot') 
这 将 产生 图 9-27 所 示 的 输出 。 


显然 , 这 可 能 是 我 近期 最 好 的 对 话 之 一 了 : 包括 机 缉 
人 和 真实 的 人 。 

现在 我 们 已 经 创建 了 这 个 基于 蛋糕 “的 智能 ， 这 里 要 设置 一 下 ， 以 便 我 们 可 以 通过 短 
信 的 方 却 与 其 聊天 。 

为 了 达到 这 个 目的 ， 我 们 还 需要 一 些 东 西 。 第 一 个 是 twilio 账户 。 他 们 将 提供 一 个 免 





"No. I'm Clevercake.”" 





图 9-27 








QD 暗合 刚刚 出 现 的 “clevercake”。 
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费 的 账户 ， 让 我 们 发 送 和 接收 短信 ， 如 图 9-28 所 示 。 


Fa BT a er 


[i 


BUILD APPS THAT COMHUNIGATE 
WITH EVERYONE IN THE WORLD 





9-28 


跳 转 到 http://www.twilio.conm 的 网 页 ， 单 击 注册 一 个 免费 的 开发 者 API 密 钥 。 
你 会 设置 一 些 登 录 攒 据 ， 然 后 他 们 将 回 你 的 手机 及 送 短信 以 确认 你 的 号 码 。 设 置 完 成 后 ， 
你 束 可 以 在 Quickstart 文档 中 找到 详细 信息 。 请 确保 你 在 左上 角 的 下 拉 沫 单 中 选择 了 
Python， 如 图 9-29 所 示 。 





TWILIO DOGS Quickstart Tutorials APl Reference Helper Libraries 


omneseons PYTHON QUICKSTART: SENDING 
om NMS AND MMS MESSADES 


Messages 








Customize a Reply to 
Incoming Messages It's really easy to send an outgoing SMS using Twilio. To send an SMS, make an HTTP POST request 


Tracking Conversations to the Messages resource. 
Sending SMS During a Phone 
Call 
| POST https://api.twilio.com/2010-04-01/Accounts/AC123456abc/Messages 
Handle Incoming Calls 


Overview Our twilio-python helper library makes this extremely easy. Open a file called send_sms .py and 


Say a Message add the following lines: 
Greet Caller By Name 
Play MP3 for Caller send_sms.py 


Connect Call to Second 


Person # Download the twilio-python library from http://twilio.com/docs/libraries 
es from twilio.rest import TwilioRestClient 
Record Caller's Voice 
. # Find these values at pes ://twilio.com/user/account 
Make Outgoing Calls account_sid = "ACXXXXXXXXXXXXXXXXX" 
auth_token = wyYYYYYYYYYYYYYYY YY 


oe client = TwilioRestClient(account_sid, auth_token) 





从 Python 代码 发 送 消息 很 简单 ， 但 是 你 需要 请 求 一 个 twilio 的 号 码 。 在 代码 中 ， 你 将 
使 用 这 个 号 码 发 送 和 接收 消息 。 接 收 消 息 稍 微 有 点 复杂 ， 因 为 它 需要 你 运行 一 个 Web 服 务 
器 。 文 档 很 简洁 ， 所 以 设置 它 不 会 让 你 太 难 熬 。 你 需要 一 个 公共 Web 能 访问 的 Flask" 服 务 器 


GD 译 者 注 : Flask 是 一 个 使 用 Python 编写 的 轻 量 级 Web 应 用 框架 
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URL 地 址 ， 并 将 其 粘贴 到 你 管理 twilio 号 码 的 区 域 之 下 方 。 只 需 单 击 号 码 ， 它 就 会 带 你 到 粘 
贴 网 址 的 地 方 ， 如 图 9-30 所 示 。 


4 Messaging View Messages Inbound | Outbound 


Configure with © URL TwiML App Messaging Service 


Request URL http:/some_public_facing_flask_url.com HTTP POST 





Fallback URL https://demo.twilio.com/welcome/sms/reply/ HTTP POST MW 





图 9-30 


一 旦 这 些 都 设置 完成 ， 你 只 需要 确保 Flask Web 服务 器 启动 并 运行 。 这 里 ， 我 压缩 了 
所 有 的 代码 ， 可 以 用 于 你 的 Flask 应 用 程序 。 


from flask import Flask, request, redirect 
import twilio.twiml 
import pandas as pd 
import re 
from sklearn.feature extraction.text import TfidfVectorizer 
from sklearn.metrics.pairwise import cosine similarity 
app = Flask( name ) 
PATH TO CSV = 'your/path/here.csyv'! 
df = pd.read csv(PATH TO CSV) 
Convo = df.iloc[:,0] 
clist = [] 
def qa pairs (x): 
cpairs = re.findall(": (.*?) (?:$|\n)", x) 
clist.extend (list(zip (cpairs, cpairs[1:]))) 
convo.map (qa pairs); 
convo frame = pd.Series (dict(clist)) .to frame() .reset Index () 
convo frame.columns = ['q', 'a'] 
vectorizer = TfidfVectorizer (ngram range= (1,3)) 
vec = vectorizer.fit transform(convo frame['q']) 
Qapp.route("/", methods=['GET', 'POST']) 
def get response () : 
input str = request.values.get('Body') 
def get response(q): 
my 9 = vectorizer.transform([input str]) 
cs = cosine similarity(my q, vec) 


rs Pd.Series (cs[0]) .sort values (ascending=0) 
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rsi = rs.index[0] 
return convo frame.iloc[rsi]['a'] 

resp = twilio.twiml .Response() 

if input str: 
resp.message (get response (input str)) 
return str (resp) 

else: 
resp.message('Something bad happened here.') 
return str (resp) 


看 起 来 有 很 多 的 事情 ， 但 实际 上 我 们 使 用 了 和 之 前 相同 的 代码 ， 只 是 现在 我 们 抓 取 了 
twilio 发 送 的 POST 数 据 一 一 消息 正文 一 而 不 是 之 前 手动 输入 get request 函数 的 数据 。 

如 末 所 有 都 按 计 划 进 行 ， 你 应 该 已 经 拥有 了 目 己 的 搞怪 好 友 ， 你 可 以 随时 间 它 发 送 短 
消息 ， 还 有 什么 比 这 更 棒 的 ? 











9.5 小 结 


在 本 半 中 ， 我 们 对 聊天 机 故人 进行 了 全 面 的 探讨 。 很 明显 ， 我 们 是 这 类 应 用 程序 的 弄 
漳 儿 。 项 望 本 间 油 励 了 人 你， 创建 目 己 的 机 各 人 ， 但 如 末 没 有 ， 人 至 少 你 对 这 些 应 用 的 原理 ， 
以 及 它们 如 何 塑 造 我 们 的 未 来 ， 有 了 更 加 丰满 的 理解 。 


我 会 让 应 用 程序 说 出 结束 语 。 


get response("Say goodbye, Clevercake") 


这 将 产生 图 9-31 的 输出 。 
‘Goodbye. 


图 9-31 


在 下 一 半 中 ， 我 们 将 进入 推荐 引擎 的 世界 。 
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构建 推荐 引擎 


像 许 多 事情 一 样 ， 该 话题 源 于 诅 形 和 僵 便 的 鸡尾酒 。 这 是 一 个 星期 六 ， 两 个 年 轻 人 晚 
上 依旧 没有 和 文生 约会 。 他 们 坐 在 一 起 喝 了 很 多 酒 ， 相 互 分 吾 了 很 多 豆 伤 的 事情 ， 淹 渐 地 
这 两 个 哈佛 大 一 新 生 开 始 思 考 一 个 问题 。 如 采 不 是 依靠 随机 的 机 会 ， 而 是 使 用 一 个 电脑 算 
法 来 上 友 现 合适 的 女孩 ， 这 会 怎么 样 ? 

他 们 党 得 匹配 人 的 关键 是 创建 一 组 问题 。 每 个 人 都 会 在 头 几 次 号 和 众 的 约会 上 寻找 一 些 
言 轧 ， 而 这 组 问题 束 是 为 大 家 提供 这 样 的 信息 。 使 用 这 些 问 卷 进 行 候 选 人 的 匹配 ， 那 么 没 
有 任何 希望 的 约会 束 补 消炎 在 明 牙 之 中 。 这 个 过 程 将 是 相当 有 效 的 。 

想法 是 同 波 士 顿 和 全 国 的 大 学 生 推 销 他 们 的 新 服务 。 马 上 ， 他 们 束 这 么 做 了 。 

不 久之 后 ， 他 们 建立 的 数字 配对 服务 取得 了 巨大 的 成 功 。 它 受到 全 国 媒 体 的 关注 ， 并 
在 后 面 的 几 年 内 生成 了 数 万 的 匹配 。 

事实 上 ， 这 家 公司 是 如 此 的 成 功 ， 一 家 更 大 的 公司 为 了 使 用 其 技术， 最 终 将 其 收购 。 

如 和 你 认为 我 可 能 在 谈论 OkCupid， 那 么 你 会 错 了 一 一 差不多 有 40 年 的 误 兰 。 我 所 说 
的 公司 是 在 1965 年 开始 的 一 一 当时 ， 匹 配 的 计算 是 通过 IBM 1401 大 型 机 上 的 穿孔 卡 来 实 
现 的 。 它 花 了 三 天 时 间 来 运行 计算 。 

奇怪 的 是 ，OkCupid 和 1965 年 的 前 辈 ，Compatibility Research 公司 , 之 间 是 有 关联 的 。 
Compatibility Research 的 联合 创始 人 是 Jeff Tarr， 他 的 女儿 Jennifer Tarr 是 OkCupid 联合 创 
始 人 Chris Coyne 的 妻子 。 世 界 真 的 很 小 。 

为 什么 这 些 与 构建 推荐 引擎 的 内 容 相 关 ? 这 是 因为 该 系统 很 可 能 是 第 一 个 推荐 引擎 。 
虽然 大 多 数 人 认为 推荐 引 敬 作为 工具 ， 是 用 于 寻找 和 他 们 豆 好 紧密 相关 的 产品 、 首 乐 和 电 
影 ， 但 最 原始 的 应 用 是 找到 潜在 的 伴侣 。 关 于 这 些 系 统 如 何 工 作 ， 它 提供 了 一 个 很 好 的 参 
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考 框架 。 
在 本 章 中 ， 我 们 将 探讨 不 同类 型 的 推荐 系统 。 我 们 将 了 解 它们 的 商业 化 实现 ， 以 及 内 
部 的 工作 原理 。 最 后 ， 我 们 会 实现 自己 的 推荐 引擎 ， 找 到 适合 的 GitHub 资料 库 。 
本 章 将 讨论 以 下 主题 。 
。 协 同 过 滤 。 
。 基 于 内 容 的 过 滤 。 
。 混 合 系统 . 


.构建 推荐 引擎 。 
10.1 协同 过 滤 


在 2012 年 初 ,， 爆 出 了 这 样 一 则 新 闻 故 事 : 一 位 男子 进入 一 家 Target" 商店 , 挥舞 着 手中 
的 一 登 优惠 券 ， 这 些 都 是 Target 邮 寄 给 他 还 在 读 高 中 的 女儿 的 。 他 来 的 目的 是 让 责 经理， 
为 这 伍 优 惠 券 都 是 诸如 竖 儿 服 闻 、 配 方 奶 和 幼儿 家 有 具 这 类 商品 专 孚 的。 

听 到 顾客 的 投诉 ， 经 理 再 三 道 菊 。 他 感 党 很 烛 糕 ， 想 在 几 天 后 通过 电话 跟 进 ， 解 释 这 
是 怎么 回 事 。 这 个 时 候 ， 反 而 是 这 位 父 杀 在 电话 里 进行 了 道 菊 。 看 来 他 的 女儿 确实 是 怀孕 
了 。 她 的 购物 习惯 泄露 了 她 的 这 个 秘密 。 

出 卖 这 位 文生 的 算法 很 可 能 是 ， 至 少 部 分 是 ， 基 于 协同 过 涛 。 

那么 ， 什 么 是 协同 过 小 ? 

协同 过 小 (collaborative filtering) 是 基于 这 样 的 想法 ， 在 荣 处 总 有 和 你 趣味 相投 的 人 。 
假设 你 和 趣味 相投 的 人 们 评价 方式 都 非 利 类 似 ， 而 且 你 们 都 已 经 以 这 种 方式 评价 了 一 组 特 
定 的 项 目 ， 此 外 ， 你 们 每 个 人 对 其 他 人 尚未 评价 的 项 目 也 有 过 评价 。 正 如 已 经 假设 的 那样 ， 
你 们 的 口味 是 类 似 的 ， 因 此 可 以 从 趣味 相投 的 人 们 那里 ， 提 取 有 其 有 很 蜗 评 分 而 你 尚未 评价 
的 项 目 ， 作 为 给 你 的 推荐 ， 反 之 亦 然 。 在 某 种 程度 上 ， 这 点 和 数字 化 配对 非常 相像 ， 但 结 
果 是 你 喜欢 的 歌曲 或 产品 ， 而 不 古 与 异性 的 约会 。 

对 于 怀孕 的 高 中 生 这 个 案例 ， 当 她 购买 了 无 味 的 乳液 、 棉 球 和 维生素 补充 剂 “ 之 后 ， 

















0 























中 译 者 注 : Target 是 美国 知名 的 零售 连锁 店 。 
包 译 者 注 : 这 些 是 刚刚 怀孕 的 母 杀 会 经 常 购买 的 。 
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她 可 能 就 和 那些 稍 后 继续 购买 婴儿 床 和 尿布 的 人 匹配 上 了 。 
10.1.1 基于 用 户 的 过 滤 


让 我 们 通过 一 个 例子 来 看 看 实践 中 这 是 如 何 运 作 的 。 


我 们 将 从 被 称 为 效用 窍 阵 (utility matrx) 的 东西 开始 。 它 和 词 条 -文档 矩阵 相 类 似 ， 不 
过 这 里 我 们 表示 的 是 产品 和 有 用户， 而 不 再 是 词 条 和 文档 。 























这 里 , 我 们 假说 有 顾客 A 到 D， 以 及 他 们 所 评分 的 一 组 产品 , 评分 从 0 到 5, VI 开 10-1 
所 示 。 
表 10-1 


Snarky'sPo | SoSoSmooth Duffly | BetterTap | XXLargeLivin' | SnowyCott | Disposos'Di 
tato mr Lotion Beer Water Football J | onBalls 本 











之 前 我 们 看 到 ， 当 想 要 俘 找 类 似 的 项 目 时 ， 可 以 使 用 余弦 相似 度 。 让 我 们 在 这 里 试 试 。 
我 们 将 为 用 户 A 友 现 最 相似 的 其 他 顾客 。 由 于 这 里 的 疝 量 古稀 玻 的 ， 包 含 了 许多 未 评分 的 
项 目 ， 我 们 将 在 这 些 缺 失 的 地 方 输入 一 些 默 认 值 。 这 里 赴 入 0。 我 们 从 用 户 A 和 用 户 BB 的 
比较 开始 。 


fromsklearn.metrics.pairwise import cosine similarity 








cosine similarity(np.array ([4,0,5,3,5,0,0]) .reshape(1,-1),\ 
np.array([0,4,0,4,0,5,0]) .reshape (1,-1)) 


上 述 代 码 生 成 图 10-1 的 输出 。 
我 们 可 以 看 到 ， 这 两 者 没有 很 高 的 相似 性 ， 这 是 有 道理 的 ， 因 为 他 们 没有 多 少 共 同 的 评分 。 
现在 来 看 看 用 户 C 与 用 户 A 的 比较 。 


cosine similarity(np.array ([4,0,5,3,5,0,0]) .reshape(1,-1),\ 
np.array ([2,0,2,0,1,0,0]) .reshape (1,-1)) 


上 述 代 码 生 成 图 10-2 的 输出 。 


array([[ 0.183332393]])larray([[ 0.88527041]]) 





图 10-1 图 10-2 
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这 里 , 我 们 看 到 他 们 有 很 高 的 相似 度 ( 记 住 1 是 完美 的 相似 度 )， 尽 管 他 们 对 同样 产品 
的 评价 有 所 不 同 。 为 什么 得 到 了 这 样 的 结果 ? “问题 在 于 我 们 对 没有 评分 的 产品 , 选择 使 用 
0 分。 它 表示 强烈 的 〈 负 的 ) 一 致 性 。 在 这 种 情况 下 ，0 不 是 中 性 的 。 


那么 ， 如 何 解决 这 个 问题 ? 


我 们 可 以 做 的 是 重新 生成 每 位 用 户 的 评分 ， 并 使 得 平均 分 变 为 0 或 中 性 ， 而 不 是 为 缺失 值 
简单 地 使 用 0。 我们 拿 出 每 位 用 户 的 评分 ， 将 其 减 去 该 用 户 所 有 打分 的 平均 值 。 例 如 ， 对 于 用 户 
A,， 他 打分 的 平均 值 为 17/4， 或 4.25。 然 后 我 们 从 用 户 A 提供 的 每 个 蛙 独 评分 中 减 去 这 个 值 。 

















一 旦 完成 ， 我 们 继续 找到 其 他 用 户 的 平均 值 ， 从 他 们 的 每 个 评分 中 减 去 该 均值 ， 直 到 
对 每 位 用 户 完 成 该 项 操作 。 

这 个 过 程 后 将 产生 表 10-2。 请 注意 ， 每 行 的 用 户 评 分 总 和 为 0 (这 里 忽略 四 舍 五 入 市 
来 的 问题 )。 

表 10-2 


Snarky's SoSo Duffly | BetterTap | XXLargeLivin' | SnowyCot | Disposos' 
Potato 上 SmoothLotion Beer Water Football ee tonBalls | 





让 我 们 在 新 的 数据 集 上 演 试 余弦 相似 上 度 。 再 次 将 用 户 A 和 用 户 B、C 进行 比较 。 
首先 ，A 和 B 之 间 的 比较 如 下 。 


cosine similarity(np.array ([-.25,0,.75,-1.25,.75,0,0])\ 
.reshape (1,-1),\ 

np.array ([0,-.33,0,-.33,0,.66,0])\ 

.reshape (1,-1)) 


上 述 代 码 生 成 图 10-3 的 输出 。 
现在 ， 我 们 试 试看 A 和 C。 


cosine similarity(np.array ([-.25,0,.75,-1.25,.75,0,0])\ 
.reshape (1,-1),\ 














只 译 者 注 : 作者 的 意思 是 ，A 和 C 对 相同 项 目的 评分 有 较 大 兰 距 ， 他 们 不 应 该 有 如 此 高 的 相似 度 
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np.array ([.33,0,.33,0,-.66,0,0])\ 
.reshape (1,-1)) 


上 述 代码 生成 图 10-4 的 输出 。 


array([[ 0.30772873]])larray([[-0.24618298]]) 


图 10-3 图 10-4 





我 们 可 以 看 到 ,A 和 B 之 则 的 相似 度 略 有 增加 ,而 A 和 C 之 间 的 相似 度 显 车 下 降 。 这 
正 是 我 们 所 希望 的 。 

这 种 中 心 化 的 过 程 除 了 帮助 我 们 处 理 缺失 值 之 外 ， 还 有 其 他 好 处 ， 例 如 帮助 我 们 处 理 
不 同 严 苛 程度 的 打分 者 ， 现 在 每 位 打分 者 的 平均 分 都 是 0 了 。 注 意 ， 这 个 公式 等 价 于 Pearson 
相关 系数 ， 取 值 落 在 -1 和 1 之 间 。 

让 我 们 现在 采用 这 个 框架 ,使 用 它 来 预测 产品 的 评分 。 我们 将 示例 限制 为 三 位 用 户 X、 
Y 和 ZZ， 我 们 将 预测 X 尚未 评价 ， 而 和 XX 非常 相似 的 Y 和 2Z 已 经 评 过 的 产品 ， 对 于 X 而 


言 会 得 到 多 少 分 。 








我 们 先 从 每 位 用 户 的 基本 评分 开始 ， 如 表 10-3 所 示 。 


表 10-3 





表 10-4 


SoSo SnowyCo | Disposos' 
SmoothLotion ttonBalls Diapers 


0.375 日 237 
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现在 ， 我 们 想 知 道 用 户 X 会 给 Disposos' Diapers 打 多 少 分 。 我 们 可 以 根据 用 户 评分 中 
心 化 之 后 的 余 弱 相似 上 度 获 得 权重 ， 并 通过 这 些 权 重 对 用 户 Y 和 用 户 Z 的 评分 进行 加 权 计 算 。 
让 我 们 先 得 到 用 户 Y 和 XX 的 相似 度 。 


user x = [0,.33,0,-.66,0,33,0] 
user y = [0,0,0,-1,0,.5,.5] 
cosine similarity (np.array (user x) .reshape(1,-1),\ 





np.array (user y) .reshape (1,-1)) 
上 上述 代码 生成 图 10-5 的 输出 。 
现在 计算 用 户 Z 和 XX 的 相似 度 。 
user x = [0,.33,0,-.66,0,33,0] 
user z= [0,-.125,0,-.625,0,.375,.375] 
cosine similarity (np.array (user x) .reshape(1,-1),\ 
np.array (user 2z) .reshape (1,-1)) 


上 述 代 码 生 成 图 10-6 的 输出 。 


array([[ 0.42447212]])larray([[ 0.46571861]]) 


图 10-5 图 10-6 


因此 ， 我 们 现在 有 一 个 用 户 X 和 用 户 Y 之 间 的 相似 度 (0.42447212)， 以 及 用 户 A 和 
用 户 乙 之 间 的 相似 度 〈0.46571861 )。 

将 它们 整合 起 来 , 我 们 通过 每 位 用 户 与 X 之 间 的 相似 度 , 对 每 位 用 户 的 评分 进行 加 权 ， 
然后 除 以 总 相似 度 。 

(0.42447212 x (4) +0.46571861 x (4.5)) / (0.42447212 +0.46571861) = 4.26 

我 们 可 以 看 到 用 户 X 对 Disposos' Diapers 的 预 估 评 分 为 4.26〔( 不 低 啊 ， 最 好 发 张 优 
患 券 !)。 


10.1.2 基于 项 目的 过 洲 


到 目前 为 止 ， 我 们 只 了 解 了 基于 用 户 的 协同 过 沽 ， 但 还 有 一 个 可 用 的 方法 。 在 实践 中 ， 
这 种 方法 远 优 于 基于 用 户 的 过 滤 “， 它 被 称 为 基于 项 目的 过 滤 。 这 是 它 的 工作 原理 ， 每 个 
被 评分 项 目 与 所 有 其 他 项 目 相 比较 ， 找 到 最 相似 的 项 ， 而 不 是 根据 评分 历史 将 每 位 用 户 和 























(D 译 者 注 : 这 点 不 能 一 概 而 论 ， 要 根据 具体 的 应 用 场景 而 言 。 
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所 有 其 他 用 户 相 匹配 。 同 时 ， 也 是 使 用 中 心 化 余弦 相似 度 。 
让 我 们 来 看 看 它 是 如 何 工作 的 。 
再 次 ， 我 们 有 一 个 效用 窍 阵 。 这 一 次 ， 我 们 将 看 看 用 户 对 歌曲 的 评分 。 每 一 列 是 一 位 














用 户 ， 而 每 一 行 是 一 首 歌曲 ， 如 表 10-5 所 示 。 


表 10-5 











现在 ， 假 设 我 们 想 知道 U3 对 于 $5 的 评分 。 这 里 ， 我 们 会 根据 用 户 对 歌曲 的 评分 来 寻 
找 闫 似 的 歌曲 ， 而 不 是 寻找 类 似 的 用 户 。 

让 我 们 来 看 一 个 例子 。 

首先 ， 我 们 从 每 行 歌曲 的 中 心 化 开始 ， 并 计算 其 他 每 首 歌曲 和 目标 歌曲 〈 即 S5〉 的 余 
弦 相 似 度 ， 参 见 表 10-6。 


表 10-6 











你 可 以 看 到 ， 最 右边 的 列 是 其 他 每 行 相对 行 S5 的 中 心 化 余弦 相似 度 。 





接 下 来 需要 选择 一 个 数字 ，k， 这 是 我 们 为 预测 U3 对 歌曲 的 评分 ， 所 要 使 用 的 最 近邻 
居 数 量 。 在 这 个 简单 的 例子 中 ， 我 们 使 用 K= 2。 
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我 们 可 以 看 到 对 于 歌曲 SS$，S1 和 S3 是 和 它 最 相似 的 ， 所 以 我 们 将 使 用 U3 对 这 两 首 
歌 的 评分 (分 别 为 4 和 5)。 


现在 让 我 们 计算 评分 

人 

因此 ， 通 过 基于 项 目的 协同 过 滤 ， 我 们 可 以 看 到 U3 很 可 能 给 S5 打出 高 分 4.42。 
之 前 ， 我 提 到 基于 用 户 的 过 派 不 如 基于 项 目的 过 小 有 效 。 这 是 为 什么 呢 ? 


很 有 可 能 ， 你 的 朋 肥 和 你 有 共同 的 爱好 ， 但 是 你 们 每 个 人 都 有 目 己 喜欢 ， 而 别人 至 无 
兴趣 的 领域 。 


例如 , 也 许 你 们 都 喜欢 “权力 的 游戏 ”这 部 电视 剧 , 但 你 的 朋友 也 喜欢 Norwegian death 
metal 重金 属 乐 队 。 而 你 死 也 不 愿意 听 这 种 音乐 。 如 果 你 们 在 许多 方面 类 似 一 -除了 death 
metal 一 一 那么 基于 用 户 的 推荐 ， 你 仍然 会 看 到 很 多 关于 乐队 的 推荐 ， 其 名 称 都 包括 火焰 、 
和 芽 头 、 头 上 骨 和 大 头 棒 这 样 的 字眼 。 使 用 基于 项 目的 过 滤 ， 很 可 能 会 避免 让 你 看 到 这 些 推荐 。 

让 我 们 用 快速 的 代码 示例 ， 来 总 结 这 个 问题 的 讨论 。 

首先 ， 我 们 将 创建 DataFrame 示例 。 


import pandas as Pd 














import numpy as np 
from sklearn.metrics.pairwise import cosine similarity 


df = pd.DataFrame ({'Ul1':[2 , None, 1, None, 3], 'U2': [None, 3, None, 4, 
Nonel] , \ 

'U3': [4, None, 5, 4, None], 'U4': [None, 3, None, 4, 

None], 'US5': [5, None, 4, None, 5]}) 


df.index = ['S1', 'S2', 'S3', 'S4', 'S5'] 
df 
上 述 代 人 码 生 成 图 10-7 的 输出 。 


We 数 ， 它 将 读 取 用 户 和 项 目的 评分 算 加 四 四 四 四 中 
阵 。 对 于 给 定 的 项 目 和 用 户 ， 该 函数 将 返回 基于 协同 过 滤 的 预 ， |s5|30 |NaN|NaN|NaN|50 


测评 分 。 图 10-7 





def get sim(ratings, target user, target item, k=2): 
centered ratings = ratings.apply (lambda x: x - x.mean(), axis=1) 
csim list = [] 
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for i in centered Latings . Index : 

csim list.append (cosine similarity (np.nan to num(centered ratings.1loc[i,:]. 
values) .reshape (1, -1), 
np.nan to num(centered ratings.loc[ltarget Item, : ] ) .reshape(l, -1)) .Item() ) 
new ratings = pd.DataFrame ({'similarity': csim list, 'rating': 
ratings[target user]}, index=ratings .index) 

top = new ratings.dropna() .sort values('similarity', 
ascending=False) [:k] .copy () 

top['multiple'] = top['rating'] * topl['similarity'] 

result = top['multiple'] .sum()/topl['similarity'] .sum() 

return result 


现在 可 以 传 入 我 们 的 值 ， 并 获得 用 户 对 项 目的 预测 评分 。 

get sim(df, 'U3', 'S5', 2) 

上 述 代码 生成 图 10-8 的 输出 。 

我 们 可 以 看 到 这 与 之 前 的 分 析 相 符 。 

到 目前 为 止 ， 我 们 在 进行 比较 时 ， 将 用 户 和 项 目 作 为 整个 的 实体 ， 但 是 现在 ， 让 我 们 
继续 了 解 另 一 种 方法 ， 它 将 我 们 的 用 户 和 项 目 分 解 为 所 谓 的 特征 集合 。 


10. 2 基于 内 容 的 过 滤 


4.423232002361576 


图 10-8 











作为 一 个 音乐 家 ，Tim Westergren 花 了 儿 年 时 间 人 和 倾听 其 他 有 天 赋 的 首 乐 家 的 作品 ， 想 知 
道 为 什么 他 们 永远 不 能 拔尖 。 他 们 的 首 乐 很 好 ， 和 你 在 电台 收听 到 的 那些 一 样 好 。 然 而， 
不 知 何 故 ， 他 们 从 来 没有 大 的 突破 。 他 想 ， 一 定 是 因为 他 们 的 音乐 没有 在 足够 的 、 合 适 的 
人 们 面前 展示 。 

Tim 最 终 退 出 了 音乐 家 的 工作 ， 开 始 从 事 电影 背景 音乐 的 作曲 。 在 那里 ， 他 开始 思考 
每 一 块 音 乐 自己 独特 的 结构 或 DNA， 并 可 以 将 其 分 解 为 不 同 的 组 成 部 分 。 

思考 一 番 之 后 ， 他 开始 考虑 围绕 这 个 想法 创建 一 家 人 公司， 建立 一 系列 首 乐 的 基因 组 。 
他 的 一 位 朋友 曾经 创建 并 出 售 了 一 家 公司 ，Tim 让 他 来 运作 这 个 想法 。Tim 的 朋友 喜欢 他 
的 想法 ， 并 开始 帮助 他 写 一 个 商业 计划 ， 并 为 该 项 目 收集 了 首 轮 融资 。 行 动 开 始 了 。 

在 接 下 来 的 几 年 里 , 他 们 雇用 了 一 小 群 音乐 家 , 对 上 百 万 首 音 乐 细 致 地 编写 了 几乎 400 
个 不 同 的 特征 ， 每 个 特征 从 0 到 5 进行 打分 一 -所有 都 是 通过 手 ， 或 者 说 是 通过 耳 东 进行 
的 。 每 首 3 到 4 分 钟 长 的 歌曲 需要 几乎 半 小 时 的 评级 。 

这 些 特征 包括 如 此 的 参数 : 如 领唱 歌手 的 声音 有 多 么 的 沉重 ， 或 币 委 是 每 分 钟 多 少 拍 。 
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他 们 花费 了 近 一 年 的 时 间 完 成 了 前 个 原型 。 它 完全 使 用 Excel 中 的 VBA 宏 构 建 花 了 天 不 
多 4 分 钟 才 返 回 一 次 推荐 结果 。 但 是 ， 最 后 ， 它 成 功 了 ， 运 作 得 非常 好 。 

我 们 现在 知道 这 家 公司 就 是 Pandora Music， 你 很 可 能 已 经 听 说 过 或 使 用 过 其 产品 ， 
为 每 天 它 有 来 目 世界 各 地 数 百 万 的 用 户 。 坚 无 疑问 ， 它 是 基于 内 容 过 滤 的 成 功 范 例 。 

在 基于 内 容 的 过 滤 中 ， 不 再 将 每 首 歌曲 视 为 一 个 不 可 分 割 的 单位 ， 而 是 将 它 变 成 特征 
问 量 ， 然 后 承 可 以 使 用 我 们 的 老 朋 友人 余弦 相似 上 度 进 行 比 较 。 

不 仅 歌曲 可 以 被 分 解 成 为 特征 同 量 ， 听 众 也 可 以 被 转化 为 特征 回 量 。 上 听众 的 品味 描述 
成 为 了 空间 中 的 回 量 ， 使 我 们 可 以 测量 他 们 的 品味 描述 和 歌曲 本 和 刁 之 间 的 相似 程度 。 

对 于 Tim Westergren 来 说 ， 这 是 神奇 的 ， 因 为 不 像 其 他 推荐 引擎 依赖 于 音乐 的 人 气 ， 
这 个 系统 的 推荐 是 基于 固有 的 结构 相似 性 。 也 许 有 人 从 来 没有 听 过 歌曲 XxX， 但 如 果 他 们 喜 
欢歌 曲 Y， 那 么 他 们 应 该 喜欢 歌曲 X， 因 为 这 两 痛 歌 在 基因 上 是 几乎 相同 的 。 这 就 是 基于 
内 容 的 过 滤 。 



































10. 3 混合 系统 





我 们 已 经 学 习 了 推荐 系统 的 两 种 主要 形式 。 但 是 ， 需 要 注意 的 是 ， 在 任何 大 规模 生产 
环境 中 ， 推 荐 引擎 可 能 同时 利用 这 两 项 技术 。 这 被 称 为 混合 系统 ， 人 们 喜欢 混合 系统 的 原 
因 是 ， 它 有 助 于 消除 使 用 单一 系统 时 可 能 存在 的 缺点 。 这 两 个 系统 在 一 起 ， 创 建 了 更 强大 
的 解决 方案 。 

让 我 们 检查 每 种 类 型 的 利 刺 

协同 过 滤 的 优点 如 下 。 

。 没 有 必要 手动 创建 特征 。 

协同 过 滤 的 缺点 如 下 。 

如果 没有 大 量 的 项 目 和 用 户 ， 它 不 能 正常 工作 。 

。 当 项 目 数量 远 远 超过 可 能 被 购买 的 数量 时 "， 效 用 矩阵 会 有 稀 玻 性 。 














@ 译 者 注 ， 推荐 引擎 一 般 用 于 电子 商务 ， 所 以 效用 矩阵 里 的 评分 通常 代表 购买 。 在 其 他 应 用 场景 中 ，“ 被 购买 ” 
等 同 于 “被 评分 ”。 
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基于 内 容 的 过 滤 的 优点 如 下 。 

* 它 不 需要 大 量 的 用 户 。 

基于 内 容 的 过 滤 的 缺点 如 下 。 

e 定 义 正 确 的 特征 可 能 是 一 个 挑战 。 

。 缺 乏 “ 意 外 的 惊喜 ””。 

当 一 家 公司 缺乏 大 量 的 用 户 群 ,基于 内 容 的 过 小 是 更 好 的 选择 , 但 是 随 看 公司 的 增长 ， 
加 入 协同 过 滤 可 以 帮助 我 们 为 用 户 提 供 更 多 的 “ 惊 辟 ”。 

现在 你 已 经 熟悉 推荐 引擎 的 类 型 和 内 部 工作 原理 了 ， 让 我 们 开始 构建 目 己 的 引擎 吧 。 


10. 4 构建 推荐 引擎 























我 喜欢 的 一 件 事 是 偶遇 一 个 非常 有 用 的 GitHub 资源 库 。 有 非常 多 的 资源 库 ， 包 括 人 为 
管理 的 机 器 学 习 教 程 ， 几 十 行使 用 ElasticSearch 的 代码 包 等 等 。 麻 烦 的 是 ， 找 到 这 些 库 远 
比 想象 的 困难 。 笠 运 的 是 ， 我 们 现在 恒 得 利用 GitHub 的 API， 在 一 定 程度 上 帮助 我 们 发 现 
这 些 代 码 的 珍宝 。 

我 们 将 使 用 GitHub API， 创 建 基 于 协同 过 小 的 推荐 引擎 。 这 个 计划 是 获得 所 有 我 已 经 
加 上 了 星 扎 的 资料 库 ， 然 后 得 到 这 些 库 的 全 部 创作 者 。 然 后 再 获取 这 些 作 者 添加 过 星 号 的 
所 有 资料 库 。 一 旦 完成 ， 我 们 可 以 比较 已 加 星 标 的 资料 库 ， 找 到 和 我 最 相似 的 用 户 《 如 果 
你 上 自己 也 运行 GitHub 的 资料 库 ， 我 建议 查找 和 你 最 相似 的 用 户 )。 一 旦 发 现 了 最 相似 的 
GitHub 用 户 , 我们 可 以 使 用 他 们 所 加 星 的 〈 而 我 没有 加 过 星 号 的 ) 资料 库 来 生成 一 组 推荐 。 


让 我 们 开始 吧 。 背 和 完 ， 我 们 将 导入 需要 的 库 。 


import pandas as pd 
import numpy as np 
import requests 
import json 


现在 ,你 需要 开 立 一 个 GitHub 账户 ， 并 为 一 些 资 料 库 打上 星 写 ,但 你 不 十 要 注册 开 友 
人 员 项 目 。 你 可 以 从 个 人 资料 中 获取 授权 令 牌 ， 它 允许 你 使 用 API。 你 也 可 以 在 代码 中 使 
用 它 ， 但 其 限制 相当 严格 ， 对 于 我 们 的 示例 用 处 不 大 。 



































G 译 者 注 : 推荐 引擎 有 一 个 重要 的 评估 指标 是 能 售 为 用 户 带 来 意外 的 惊喜 ， 为 其 推荐 他 们 疫 有 想到 ， 但 确实 豆 
欢 的 物品 。 
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为 了 创建 用 于 API 的 令 牌 ， 请 访问 以 下 URL 
https://github.com/settings/tokens。 在 这 里 ， 你 将 在 右上 角 看 到 一 个 按钮 ， 如 
图 10-9 所 示 。 





Personal access tokens Generate new token 


Tokens you have generated that can be used to access the GitHub APIl. 





图 10-9 


你 需要 单 击 Generate new token 按钮 。 一 旦 完成 ， 你 需要 将 提供 的 令 牌 复制 到 以 下 代码 
中 。 请 确保 这 两 者 都 包含 于 引号 中 。 


myun = YOUR GITHUB HANDLE 
mypw = YOUR PERSONAL TOKEN 


现在 ， 我 们 将 创建 一 个 函数 ， 它 将 拉 取 你 已 加 星 标的 每 个 资料 库 的 名 称 。 


my_starred repos = [] 
def get starred by me () : 





resp list = [] 

last resp = "" 

first url to get = 'https://api.github.com/user/starred' 
first url resp = requests.get(first url to get, auth= (myun ,mypw)) 
last resp = first url resp 

resp list.append(json.loads (first url resp.text)) 


while last resp.links.get('next'): 
next url to get = last resp.links['next']['url'] 
next url resp = requests.get (next url to get, auth= (myun ,mypw)) 
last resp = next url resp 
resp list.append(json.loads (next url resp.text)) 


for i in resp list: 
for J in 1i: 
msr = JjJ['html url'] 
my_starred repos .apPend (msr) 
这 里 有 很 多 操作 ， 但 实质 上 ， 我 们 就 是 查询 API 以 获取 上 自己 加 过 星 标 的 资料 库 。GitHub 
使 用 分 页 ， 而 不 是 在 一 次 调用 中 返回 所 有 结果 。 因 此 ， 我 们 需要 检查 从 每 个 啊 应 返回 
的 .1inks。 只 要 有 下 一 个 链接 可 以 调用 ， 我 们 束 继 续 这 样 做 。 


接 下 来 ， 我 们 只 需要 调用 创建 的 函数 。 


get starred by me () 
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然后 ， 我 们 可 以 看 到 已 加 星 标 资 料 库 的 完整 列表 。 
my_starred repos 


此 代码 将 产生 类 似 于 图 10-10 的 输出 。 





://github.com/pydata/pandas', 
://github.com/ipython/ipywidgets', 
://github .com/tweepy/tweepy ', 
://github.com/matplotlib/matplotlib', 
://github .com/d3/d3 ' ， 


://github.com/JohnLangford/vowpal wabbit', 
://github.com/tensorflow/tensorflow', 
://github.com/scikit-learn/scikit-learn', 
://github.com/chncyhn/flappybird-qlearning-bot', 
://github.com/josephmisiti/awesome-machine-learning', 
://github.com/vinta/awesome-python', 





图 10-10 


接 下 来 ， 我 们 需要 解析 每 个 已 加 星 标 资 料 库 的 用 户 名 ， 这 样 束 可 以 检索 他 们 曾经 标记 
的 库 。 


my_starred users = [] ['pydata', 
for ln in my starred repos: ‘ipython ， 
right split = ln.split('.com/') [1] ‘tweepy ， 
a . ‘matplotlib', 
starred usr = right split.split('/')1[0] 'd3', 


my_starred users.append (starred usr) ‘'JohnLangford ， 
'tensorflow', 
'scikit-learn', 
‘chncyhn ， 


上 述 代 码 生 成 图 10-11 的 输出 。 ‘josephmisiti', 


'vinta', 


my_starred users 


‘yawitzd', 


现在 ， 我 们 已 经 获得 了 所 有 加 星 标 资料 库 的 作者 ， 下 面 需要 ‘ujjwalkarn', 








检索 他 们 所 加 标的 库 ， 以 下 函数 将 会 实现 这 一 点 ， ee 


starred repos = {k:[] for k in set(my starred users)} 

def get starred by userl(user name).: 
starred resp list = [] 
last resp = "" 

first url to get = 'https://api.github.com/users/'+ user name +'/starred' 
first url resp = requests.get(first url to get, auth= (myun ,mypw)) 
last resp = first url resp 

starred resp list.append(json.loads (first url resp.text)) 


while last resp.links.get('next'): 
next url to get = last resp.links['next']['url'] 
next url resp = requests.get (next url to get, auth= (myun ,mypw)) 


last resp = next url resp 


starred resp list.append(json.loads (next url resp.text)) 
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for i in starred resp list: 
for J in 1i: 
sr = JjJ['html url'] 
starred repos.get(user name) .append (sr) 


这 个 函数 的 工作 方式 与 我 们 之 前 调用 的 函数 几乎 相同 ， 但 它 调用 了 不 同 的 痕 扣 。 它 会 
将 之 前 作者 们 加 星 标的 资料 库 谎 加 到 一 个 字典 ， 我 们 稍 后 将 使 用 该 字典 。 

让 我 们 现在 调用 它 。 运 行 可 能 需要 几 分 钟 ， 具 体 取决 于 作者 们 加 标的 资料 库 数量 。 实 
际 上 ， 我 目 己 的 数据 超过 了 4,000 个 加 标的 资料 库 。 


for usr in list(set(my starred users)): 








print (usr) 

try: 

get_ starred by user (usr) 
except: 

print('failed for user', usr) 


上 述 代码 生成 图 10-12 的 输出 。 

请 注意 ， 在 调用 它 之 前 ， 我 将 已 加 星 标的 用 户 列 表 变 为 了 一 个 集合 。 我 发 现 了 一 些 重 复 
的 用 户 ， 这 是 由 于 在 一 个 用 户 句 柄 下 对 多 个 资料 库 加 了 星 标 ， 所 以 将 列表 转化 为 集合 很 有 总 
义 ， 它 会 去 除 重 复 的 调用 。 

我 们 现在 需要 为 所 有 被 加 标的 资料 库 ， 构 建 一 个 特征 集 。 

repo vocab = [Item for sl in list(starred repos.values()) for Item in SJ] 

接 下 来 ， 由 于 多 个 用 户 会 标注 同一 个 资料 库 ， 我 们 将 其 转换 为 一 个 集合 ， 以 删除 可 能 
存在 的 多 个 重复 。 

repo set = JIst(set (zePo_ vocab)) 

让 我 们 看 看 这 产生 了 多 少 库 。 

len (repo_ vocab) 

上 面 的 代码 生成 了 图 10-13 的 输出 。 

我 加 标的 资料 库 已 经 超过 80 个 了 ， 而 所 有 相关 的 用 户 对 超过 12,000 个 唯一 的 资料 
库 加 过 星 标 。 你 可 以 想象 ， 如 果 我 们 按照 同样 的 方法 进一步 获取 相关 的 资料 库 “， 那 会 


有 多 少 。 


























(D 译 者 注 : 作者 介绍 的 数据 获取 方法 类 似 网 络 息 虫 ， 从 作者 上 自己 开始 ， 获 取 加 标的 库 ， 合 看 其 作者 ， 表 获取 放 
作者 加 标的 库 ， 如 此 往复 ， 可 以 获取 海量 数据 。 
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podopie 
twitter 
grangier 
bmtgoncalves 
bloomberg 
donnemartin 
cchi 


monkeylearn 
misterGF 
clips 
hangtwenty 
sandialabs 





图 10-12 图 10-13 


现在 ， 我 们 有 了 完整 的 特征 集 ， 或 者 说 资料 库 的 词汇 ， 我 们 对 于 每 位 用 户 和 每 个 资料 
库 的 组 合 创建 一 个 二 进 制 癌 量 ， 如 宋 该 用户 对 该 库 有 加 星 标 ， 那 么 为 1， 合 则 为 0。 


all usr Vector = [] 





for k,v in starred repos.items () : 
usr vector = [] 
for url in repo set: 
If url In V: 
usr vector.extend([1]) 
else: 
usr vector.extend([0]) 
all usr vector.append(usr vector) 


我 们 刚刚 做 的 是 检查 每 位 用 户 ， 看 看 他 们 和 是否 为 词汇 集中 的 资料 库 打 过 星 标 。 如 宁 打 
过 ， 值 就 设置 为 1， 如 果 没 有 就 是 0。 

此 时 ， 我 们 有 12,378 个 项 目 (资料 库 )，79 位 用 户 ， 以 及 他 们 之 间 的 二 进 制 向 量 。 让 
我 们 将 这 些 放 入 一 个 DataErame。 行 索引 将 是 我 们 已 加 星 标的 用 户 句柄 ， 而 列 将 是 资料 
库 的 词汇 。 


df = pd.DataFrame (all usr vector, columns=repo set, 





index=starred repos .keys () ) 
df 


上 述 代 码 生 成 图 10-14 的 输出 。 
接 下 来 ， 为 了 将 我 们 自己 与 其 他 用 户 进行 比较 ， 需 要 向 数据 框 中 添加 自己 的 那 行 。 


my_repo comp = [] 

for i In df.columns: 
if i in my starred repos: 
my_repo_ comp .append (1) 
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else: 


my_repo comp.append (0) 


mrc = pd.Series (my repo comp) .to frame('acombs').T 
mrc 


https://github.com 
ee. https://github.com/wagerfield/parallax | https://github.com/agibsonsw/AndyPython om 和 


mm hr hm 
ah hm 


monkeylearn 





图 10-14 
上 述 代 码 生 成 图 10-15 的 输出 。 


| lol1l2|3|4|s|6l7|8|9|...|12368|12369 12370 | 12371 | 12372 | 12373| 12374 | 12375 | 12376 | 12377 


图 10-15 








我 们 现在 需要 添加 适当 的 列 名 并 将 其 连接 到 其 他 数据 框 。 


mrc.columns = df.columns 
fdf = pd.concat([df, mrc]) 
fdf 
上 述 代码 生成 图 10-16 的 输出 。 
oa oo 


ery | hm 


PMSI- 
AlignAlytics 





你 可 以 看 到 ， 在 图 10-16 的 截图 中 ， 我 也 被 添加 到 DataFrame。 
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现在 ,我 们 只 需要 计算 自己 和 其 他 用 户 之 间 的 相似 性 。 这 次 我 们 将 使 用 pearsonr 图 
数 ， 它 需要 从 scipy 导入 。 


from scipy.stats import pearsonr 





sim score = {} 

for i In range (len (fdf)): 

ss = pearsonr (fdf.iloc[-1,:], fdf.iloc[i,:]) 
sim score.update({i: ss[0]}) 


sf = pd.Series (sim Score) .to frame('similarity') 
sf 


上 述 代 码 生 成 图 10-17 的 输出 。 

我 们 刚刚 所 做 的 是 将 DataFrame 中 最 后 一 个 同 量 和 其 他 辣 量 进行 比较 , 并 生成 中 心 化 
余弦 相似 度 (Pearson 相 关系 数 )“。 一 些 值 是 NaN (不 是 数字 )， 因 为 他 们 没有 给 任何 项 目 
标记 星 号 ， 导 致 在 计算 中 除 以 了 和 零 。 

现在 让 我 们 对 这 些 值 进行 排序 ， 以 返回 最 相似 用 户 的 索引 编号。 

sf.sort values('similarity', ascending=False,) 


上 述 代 码 生 成 图 10-18 的 输出 。 


mn | emery 
OC 
en larlozouros 
ooror7 ||s [orerse0 
ae 


a oress | orasso 
orerwo osloriens 
en aslorosres 
loo 





图 10-17 图 10-18 


这 些 是 最 相似 的 用 户 ， 因 此 ， 我 们 可 以 使 他 们 来 推荐 目 己 可 能 喜欢 的 资料 库 。 来 看 看 
这 些 用 户 ， 以 及 他 们 都 标记 了 哪些 我 们 可 能 可 欢 的 资料 库 。 





(D 译 者 注 : 根据 维基 百科 的 定义 ， 中 心 化 之 后 ， 同 量 间 的 余弦 相似 度 和 Pearson 相关 系数 是 等 价 的 。 
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你 可 以 忽略 具有 完美 相似 度 分 数 的 第 一 个 用 户 ， 这 是 我 们 日 己 。 按 照 列 表 找 下 去 ， 三 
个 最 接近 的 匹配 是 用 户 31、 用 户 5 和 用 户 71。 让 我 们 看 看 每 个 人 。 

fdf.index[31] 

上 述 代码 生成 图 10-19 的 输出 。 

让 我 们 来 看 看 这 是 谁 ， 以 及 他 们 的 资料 库 是 什么 。 

从 https://github.com/lmcinnes， 我 们 可 以 看 到 资料 库 属 于 谁 。 


这 是 hdbscan 的 作者 一 一 一 个 优秀 的 库 一 一 他 恰好 也 是 scikit-learn 和 matplotlib 
的 页 献 者 ， 如 图 10-20 所 示 。 














Leland Mclnnes 
Imcinnes 


帝 Tutte Institute for Mathematics an 


© Ottawa, Ontario, Canada 


'Jmcinnes' |®© Joined on Apr15, 2015 


10-19 图 10-20 


让 我 们 看 看 他 对 哪些 库 加 了 星 标 。 有 几 种 方法 来 做 到 这 点 : 我 们 可 以 使 用 目 己 的 代码 ， 
或 者 只 是 单 击 他 们 图 片 下 方 的 星星 。 让 我 们 两 者 郡 试 一 下 ， 只 是 比较 并 确保 一 切 都 是 对 的 。 

首先 通过 代码 : 

fdf.iloc[31,:] [fdf.iloc[31,:]==1] 


上 面 的 代码 生成 图 10-21 的 输出 。 


://github.com/glennq/tga 
://github.com/iamaziz/PyDataset 
://github.com/lmcinnes/hdbscan 
://github.com/jupyter-incubator/kernel gateway bundlers 
://github.com/lmcinnes/hypergraph 
://github.com/tensorflow/skflow 
://github.com/cehorn/GLRM 

://github.com/mwaskom/seaborn 




















://github.com/jupyter-incubator/dashboards 
://github.com/scikit-learn/scikit-learn 
://github.com/stitchfix/d3-jupyter-tutorial 
://github.com/matplotlib/matplotlib 
://github.com/patricksnape/PyRPCA 

: lmcinnes, dtype: int64 


上 





10-21 
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我 们 看 到 13 个 被 标记 的 资料 库 。 让 我 们 将 其 和 GitHub 网 站 提供 的 那些 进行 比较 ， 如 
图 10-22 所 示 。 


院 Imcinnes (Leland Mclnnes) / starred 


jupyter-incubator/dashboards 
Jupyter Dynamic Dashboards from Notebooks 
Starred on Mar 1 


jupyter-incubator/kernel_gateway_bundlers 
Converts a notebook to a kernel gateway microservice bundle for download 
Starred on Mar 1 


Imcinnes/hdbscan 


A high performance implementation of HDBSCAN clustering. 


iamaziz/PyDataset 





10-22 
在 这 里 ， 我 们 可 以 看 到 它们 是 完全 相同 的 。 还 要 注意 ， 我 们 可 以 记录 自己 和 这 位 用 户 
都 标记 的 库 : 他 们 是 标记 为 Unstar ”的 那些 。 
不 对 的 是 ， 只 有 13 个 标 星 的 资料 库 ， 没 有 足够 的 数据 来 生成 推 荐 。 
下 一 位 相似 的 用 户 ， 实 际 上 是 一 个 朋友 和 前 同事 ，Charles Chi。 
fdf.index[5] 


上 述 代 码 生 成 图 10-23 的 输出 。 
他 的 GitHub 摘 述 文件 如 图 10-24 所 示 。 


ro 








Charles Chi 


cchi 


(D Joined on Mar 8, 2013 





10-23 图 10-24 








由 于 上 自己 标记 为 star， 才 会 出 现 unstar 的 操作 选项 。 
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在 这 里 ， 我 们 看 到 了 他 加 过 星 标 的 资料 库 ， 如 图 10-25 所 示 。 


cchi (Charles Chi) / starred Follow 


Sort: Recently starred ~ ET 
Your repositories 


shagunsodhani/papers-l-read Others' repositories 
Starred 16 days ago 


Filter by languages 
JavaScript 
rasbt/python-machine-learning-book C++ 
The "Python Machine Learning" book code repository and info resource Ron 
Starred 17 days ago Java 
Scala 
R 


doximity/vital Sp 


Design Framework 


HTML 


Jupyter Notebook 
Starred on May 2 


kjw0612/awesome-rnn 


Recurrent Neural Network - A curated list of resources dedicated to RNN 





10-25 
Charles 已 经 标记 了 27 个 库 ， 所 以 育 定 可 以 从 中 发 现 一 些 好 的 建议 。 
最 后 ， 让 我 们 来 看 看 第 三 个 最 相似 的 用 户 。 
fdf .index[71] 
这 将 产生 图 10-26 的 输出 。 
用 户 Artem Ruster 已 经 发 布 了 近 5$00 个 资料 库 ， 如 图 10-27 所 示 。 


Artem 
rushter 


© Russia 
24 github@rushter.com 
co http://rushter.com 


'rushter' | © Joined on Jan 4, 2013 





10-26 图 10-27 
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我 们 可 以 在 图 10-28 中 看 到 他 已 加 星 标的 资料 库 。 


:5 rushter (Artem ) / starred Follow 


Sort: Recently starred ~ All stars 
Your repositories 
google/deepboost Others' repositories 
Starred 11 days ago 


Filter by languages 


alex-sherman/deco 


Starred 15 days ago 


ujjwalkarn/DataSciencePython er 
common data analysis and machine learning tasks using python 


Starred 17 days ago 


tbenthompson/cppimport 
Import C++ files directly from Python! 


tarred 17 days ago 





图 10-28 
这 绝对 是 产生 推荐 内 容 的 沃土 。 让 我 们 现在 开始 ， 使 用 这 三 个 链接 产生 一 些 推荐 。 


首先 ， 我 们 需要 收集 他 们 已 经 加 星 标 ， 而 我 没有 加 星 标 的 链接 。 我 们 将 创建 一 个 
DataFrame， 放 入 我 和 三 位 相似 用 户 己 加 星 标 的 资料 库 。 


all recs 一 
fdf.iloc[[31,5,71,79],:] [fdf.iloc[[31,5,71,79],:]==1] .fillna(0).T 


上 述 代 码 生 成 图 10-29 的 输出 。 


oer eco 
[TI 
eaonaapaanamapm lo | 
seaomaavaaaam nb ho 
Teamaaonaeaalesiovaaim lo lo ho | 
eanmamaaa nn 





emaaoanaaam nb | 
eemaaonamwaapyionaaiem hh lo | 
eemaaonaemeom nb hi 
aaaomimasaieaaapaeram lo lo lo 
porousoomearsoaraououitouree | lo lo lo | 





10-29 


如 条 看 起 来 好 像 全 是 零 ， 不 用 担心 ， 这 是 一 个 稀世 窃 阵 ， 所 以 大 多 数 都 将 是 0。 让 我 
们 看 看 是 否 存 在 我 们 几 个 都 已 加 星 标的 资料 库 。 


all recs[(all recs==1) .all (axis=1)] 





ww ai bbt.com DODODDDDOD 





10.4 构建 推荐 引 人 警 ” 249 
此 代码 将 产生 图 10-30 的 输出 。 


可 以 看 到 ,不 出 意外 的 ， 我们 都 喜欢 scikit-learn。 让 我 们 看 看 其 他 几 位 标记 了 哪 
些 我 没 标 记 的 。 先 创建 一 个 排除 我 的 数据 框 ， 然 后 ， 碍 询 共 同 的 加 标 资料 库 。 


str recs tmp = all recs[lall recs['acombs']==0] .copy () 
str recs = str recs tmp.iloc[:,:-1] .copy () 


str recs 


上 述 代 码 生 成 图 10-31 的 输出 。 
limeinnes|cchi|rushter|acombs 





https://github.com/tensorflow/skflow 
https://github.com/scikit-learn/scikit-learn imeinnes | cchi |rushter 


图 10-30 图 10-31 











好 吧 ， 看 起 来 我 没有 错失 任何 超级 资料 库 。 让 我 们 看 看 是 否 存在 两 位 共同 加 标的 库 。 
为 了 找到 这 些 ， 我 们 只 是 将 行 的 内 容 加 和 。 


str recs[str recs.sum(axis=1)>1] 


上 述 代 码 生 成 图 10-32 的 输出 。 


imeinnes ochijrushter 
pgm omasbvoynon macnine-earing ook | hh | 
payemupeonpaargagawesomecome lo 1 | 
apayemupeonnasptpatem oosoitoaton lo 1 
https://github.com/DrSkippy/Data-Science-45min-Intros 1 1 

epsyamubeonmmeme 


https://github.com/PredictionIO/PredictionIO 
https://github.com/mwaskom/seaborn 


https://github.com/okulbilisim/awesome-datascience 





| 

| 

| 
https://github.com/ChristosChristofidis/awesome-deep-learning o0 1 

dj 

1 

BI) 


图 10-32 





这 看 起 来 很 有 和 希望 ， 因 为 有 一 些 资料 库 ， 被 cchi 和 rushter 都 加 过 星 邱 。 看 看 库 的 名 称 ， 
似乎 有 许多 “很 梭 ”(awesome) 的 项 目 在 其 中 。 也 许 我 应 该 跳 过 推荐 引擎 ， 直 接 使 用 关键 
字 搜 索 “awesome”。 

到 目前 为 止 ,不 得 不 说 我 对 结果 印象 深刻 。 这 些 肯 定 是 我 感 兴 趣 的 库 ， 我 一 定 会 仔细 
看 看 。 
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现在 ， 我 们 使 用 协同 过 渡 生 成 了 推荐 ， 然 后 通过 和 聚集 执行 了 一 点 额外 的 过 滤 。 如 宋 钼 
更 进一步 ， 我 们 可 以 按照 每 个 被 推荐 项 目 收 到 的 星星 数 来 排序 。 你 可 以 通过 GitHub API 进 
行 男 一 次 调用 ， 来 实现 这 一 点 。 有 一 个 并 点 会 所 供 此 类 信息 。 


为 了 改进 结果 ， 可 以 做 的 男 一 件 事情 是 瀛 加 基于 内 容 的 过 小 。 这 是 我 们 前 面 所 讨论 的 
混合 步骤。 我 们 需要 为 目 己 的 库 创 建 一 组 特征 ， 而 这 些 特征 可 以 表明 我 们 的 兴趣 。 一 种 方 
法 是 对 加 标 资 料 库 的 名 称 以 及 描述 进行 分 词 ， 来 创建 一 个 特征 集 。 


这 里 是 我 打 过 星 标 的 库 ， 如 图 10-33 所 示 。 











Sort: Most stars ~ All stars 


Your repositories 
d3/d3 友 Unstar Others' repositories 
Bring data to life with SVG, Canvas and HTML. 必 mM 计 


50,612 stars Filter by languages 


Python 
JavaScript 


tensorflow/tensorflow Jupyter Notebook 


仿 Unstar 
Computation using data flow graphs for scalable machine learning C++ 


HTML 
CSS 
Objective-C 
。 OpenEdge ABL 
vinta/awesome-python FT 
A curated list of awesome Python frameworks, libraries, software and resources _ 
SNe 


kennethreitz/requests TT 
Python HTTP Requests for Humans™ 


19,265 stars 


caesar0301/awesome-public-datasets 





食 Unstar 


图 10-33 





你 可 以 想象 ， 这 将 生成 一 组 单词 特征 ， 我 们 可 以 用 其 审查 基于 协同 过 滤 的 那些 推荐 。 
这 将 包括 很 多 词汇 ， 如 Python、Machine Learning 和 Data Science 等 。 这 将 确保 
与 我 们 不 太 相 似 的 用 户 仍 然 可 以 提供 基于 目 身 兴趣 的 推 存 。 它 也 会 减少 推荐 的 “意外 之 豆 ”， 
ee 例如 ， 有 可 能 茶 些 资料 库 不 同 于 当前 我 所 标 星 的 库 ， 然 而 我 对 它 其 实 

兴趣 。 这 当然 只 是 一 种 可 能 性 。 


从 数据 框 的 角度 看 , 基于 内 容 过 滤 的 步骤 会 是 什么 样子 ? 列 将 是 单词 特征 (n 元 语法 )， 


行将 是 从 协同 过 滤 步 又 产生 而 来 的 资料 库 。 我 们 只 需 使 用 自己 的 库 ， 再 次 运行 相似 性 比较 
的 过 程 。 
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10.5 小 结 


在 本 章 中 ， 我 们 了 解 了 推 存 引 擎 。 我 们 学 习 了 当今 使 用 的 两 个 主要 类 型 的 系统 : 协同 
过 小 和 基于 内 容 的 过 小。 我 们 还 了 解 了 如 何 将 它们 一 起 使 用 并 形成 混合 系统 。 我 们 也 花 了 
一 些 时 间 讨 论 每 类 系统 的 利 紫 。 最 后 ， 我 们 学 习 了 如 何 使 用 GitHub API， 从 头 开 始 一 步 一 
步 地 构建 推荐 引擎 。 

我 布 望 你 使 用 本 重 中 的 指导 来 构建 目 己 的 推荐 引擎 ， 而 且 我 希望 你 能 找到 许多 对 你 有 
用 的 资源 。 我 知 志 我 找到 了 一 些 上 自己 肯定 会 使 用 的 东西 。 

在 构建 推荐 引擎 的 旅 和 泛 上 ， 在 使 用 本 书 所 介绍 的 全 部 机 占 学 习 技 术 的 旅途 上 ， 我 视 你 
好 运 。 机 融和 学 习 打 开 了 一 个 新 的 世界 ， 充 请 了 可 能 性 ， 未 来 它 将 影响 我 们 生活 中 的 几乎 每 
一 个 领域 ， 而 你 ， 已 经 迈 出 了 进入 这 个 新 世界 的 第 一 步 。 
































ww albbt.com DODODDDDD 





Python 机 器 学 习 
实践 指南 


机 器 学 习 正 在 迅速 成 为 数据 驱动 型 世界 的 一 个 必 备 模块 。 
许多 不 同 的 领域 ， 如 机 器 人 、 医 学 、 零 售 和 出 版 等 ， 都 需要 依 
赖 这 门 技术 。 通 过 阅读 本 书 ， 你 将 学 习 如 何 一步 步 构建 真实 的 
机 器 学 习 应 用 程序 。 = 





本 书 以 通俗 易 懂 ， 简 洁 明 了 的 方式 ， 教 你 如 何 使 用 机 器 学 a 
习 来 收集 、 分 析 并 操作 大 量 的 数据 。 通 过 易于 理解 的 项 目 ， 本 
书 讲解 如 何 处 理 各 种 类 型 的 数据 、 如 何以 及 何 时 应 用 不 同 的 机 
器 学 习 技 术 ， 包 括 监督 学 习 和 无 监督 学 习 。 本 书 中 的 每 个 项 目 - 
都 同时 提供 了 教学 和 实践 ， 你 将 学 习 如 何 使 用 聚 类 技术 来 必 现 
低 价 的 机 票 ， 以 及 如 何 使 用 绪 性 回归 找到 一 间 便 宜 的 公寓 。 


本 书 适合 的 读者 包括 了 解数 据 科 学 的 Python 程 序 员 、 数 
据 科 学 家 、 架 构 师 ， 以 及 想 要 构建 完整 的 、 基 于 Python 的 机 
器 学 习 系统 的 人 们 。 
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